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Die Arbeit behandelt zunächst die statistische Theorie der Ereignisanalyse, die die 
Grundlage für die empirische Analyse der Studiendauer und des Studienabbruch- 
Risikos auf der Basis von Studieneingangskohorten der Wirtschaftsuniversität 
Wien bildet. Die Einbeziehung erklärender Variablen in das statistische Modell 
und die Ermittlung des Effektes dieser Variablen auf die Dauer bis zum Eintreffen 
eines Ereignisses bilden einen Schwerpunkt der Arbeit. Es werden parametrische 
Regressionsmodelle zur Analyse von Verweildauern unter Einbeziehung 
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Kapitel 1 


Einleitung 


1.1 Hintergrund und Zielsetzungen der Arbeit 


Seit Jahren sorgen überlange Studienzeiten und hohe Abbruchraten für Dis- 
kussionsstoff an den Universitäten. An der Wirtschaftsuniversität Wien (WU) 
wird im Kenndaten-Bericht 2001 retrospektiv für den Absolventenjahrgang 
1999/2000 (Absolventen im Zeitraum vom 1. Oktober 1999 bis 30. Septem- 
ber 2000) eine durchschnittliche Dilpomstudiendauer von etwa 14.8 Semester 
angegeben; die vorgeschriebene Studiendauer ist 8 Semester. Über die Ab- 
bruchquote von Studierenden der Wirtschaftsuniversität gibt es seitens der 
Universitätsleitung nur grobe Schätzungen; jedoch liegt die Zahl derer eines 
Jahrgangs, die das Studium beenden, weit unter der Zahl derer, die das Stu- 
dium beginnen. Diese Zahlen sind Anlass für die Durchführung von Studien 
über Ursachen und Gründe von langen Studienzeiten und hohen Abbruchra- 
ten. Diese Studien werden meist in Form von Befragungen von Studienabbre- 
chern und Langzeitstudierenden durchgeführt. Daneben bieten auch die Daten 
aus der Hörerevidenz, der universitätsinternen Dokumentation der Studienver- 
laufsdaten der Studierenden, ein großes Informationspotential. Universitäten 
verfügen in ihren Datenbanken über genaue Daten über die inskribierten Studi- 
en und (inneruniversitären) Prüfungsaktivitäten sowie über Daten zu demogra- 
phischen Variablen ihrer Studierenden wie beispielsweise Schultyp, Geschlecht 
und Nationalität. Die Analyse der Daten aus der Hörerevidenz und aus Be- 
fragungen ermöglicht die Bereitstellung von differenzierter und verlässlicher 
Information über 


1. die Studiendauer, 


2. den Studienabbruch, 
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3. den Studienverlauf und 


4. das Studienverhalten. 


Eine nähere Auseinandersetzung mit dem Thema zeigt die Komplexität der Be- 
griffe Studiendauer und Studienabbruch. Eine exakte Definition dieser beiden 
Begriffe ist Voraussetzung und wichtiger Bestandteil einer ernst zu nehmenden 
Analyse. | 


Der Bedarf seitens der Universitätsleitung an differenzierter Information zu den 
oben genannten Punkten, aber auch das Interesse der Universitätsangehörigen 
und vieler Aussenstehender ist Motivation, Analysen des Studienerfolgs und 
des -abbruchs durchzuführen. Daneben gewinnen umfassende Analysen zu die- 
sem Thema auch im Hintergrund von Diskussionen um die Autonomie von 
Universitäten zusehends an Bedeutung. In einigen europäischen Ländern sind 
Leistungskennzahlen (engl. performance indicators) für die Universitäten ein- 
geführt worden, die neben der Zahl der Studienabschlüsse auch die Abbruch- 
quote als einen Indikator enthalten. An diesen Leistungskennzahlen orientiert 
sich die Aufteilung des zur Verfügung stehenden Budgets. Analysen des Studi- 
enabbruchs etwa können dazu beitragen, Einflussgrößen auf die Abbruchraten 
zu identifizieren, und machen deutlich, inwieweit die einbezogenen Variablen 
Unterschiede in den Abbruchraten erklären; siehe Smith und Naylor (2001). 


Die vorliegende Arbeit ist im Rahmen des Projektes “Studienverlaufsanaly- 
se” entstanden (Hackl und Sedlacek (2002)). Die Zielsetzungen des Projektes, 
das von der Universitätsleitung in Auftrag gegeben worden ist, können in die 
folgenden drei Punkte zusammengefasst werden: 


e Umfassende empirische Analyse der Studiendauer und des Studienabbruch- 
Risikos von WU-Studierenden - in Abhängigkeit von 


— studienerfolgsbezogenen Merkmalen (wie etwa der Anzahl der Leistun- 
gen im ersten Studienjahr) 


— studentenbezogenen Merkmalen aus der Hörerevidenz (wie Geschlecht, 
Schultyp oder Alter) 


— studentenbezogenen Variablen, die nicht in der WU-Studenten-Daten- 
bank STEP verfügbar sind (wie dem zeitlichen Verlauf einer Erwerbstä- 
tigkeit parallel zum WU-Studium) 


e Definition und Berechnung von Kennzahlen, die über den Studienverlauf 
Bescheid geben und derzeit nicht zur Verfügung stehen; im Detail wurde 
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— die Studiendauer von Absolventenjahrgängen (und Teilpopulationen) 
analysiert, 


— die Dauer bis zum Studienabbruch von Studienabbrechern eines Stu- 
dienjahres geschätzt, sowie 


— der Studienerfolg und -fortschritt von Studieneingangs-Kohorten be- 
handelt. 


e Konzeption und Entwicklung eines Instruments, das die routinemäßige Durch- 
führung der im vorangegangenen Punkt einmalig durchgeführten Analysen 
erlaubt. 


1.2 Retrospektive und prospektive Methoden 


Die statistischen Methoden, die zum Erreichen der oben angeführten Zielset- 
zungen herangezogen wurden, sind (numerische und grafische) Verfahren der 
deskriptiven Statistik (Häufigkeitsverteilungen, Lagemaße einer Verteilung und 
Kreuztabellen für die Analyse des Zusammenhangs von zwei Merkmalen) sowie 
Methoden, die in der Theorie der Ereignisanalyse entwickelt wurden. Abhängig 
von der Fragestellung wurden 


e (retrospektive) Analysen von Absolventen- bzw. Abbrecherjahrgängen, bzw. 


e (prospektive) Analysen von Studienanfänger-Jahrgängen (Studieneingangs- 
Kohorten) durchgefiihrt. 


Retrospektive Analysen wurden mit folgendem Ziel durchgefiihrt: 


e Schätzung der Verteilung der Studiendauer von Absolventen- und von Ab- 
brecherjahrgängen und Subpopulationen der Jahrgänge; diese Subpopula- 
tionen können durch Unterscheidungen der Absolventen (bzw. Studienab- 
brecher) nach Studienrichtung, Geschlecht, Schulform, etc. gebildet werden. 


Prospektive Analysen verfolgten das Ziel der 


e Schätzung der Studiendauer und der Studienabbruch-Wahrscheinlichkeit 
von (Teilpopulationen von) Studienanfänger-Jahrgängen, sowie der 


e Analyse des Effekts von potentiellen Einflussgrößen auf die Studiendauer 
bzw. das Studienabbruch-Risiko. 
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Bei der Analyse von Studienanfänger-Jahrgängen werden Erstinskribenten bis 


a. zu ihrem erfolgreichen Studienabschluss 
b. zu ihrem Studienabbruch 


c. bis zum Ende der Studie (Stichtag) verfolgt. 


Der Fall (c) tritt bei Studierenden ein, die zum Stichtag das Studium weder ab- 
geschlossen noch abgebrochen haben. Vorteile der Analyse von Studieneingangs- 
Kohorten gegenüber retrospektiven Analysen sind etwa: 


e In der Analyse der Studiendauer in Abhängigkeit von potentiellen Einfluss- 
größen werden nicht nur Absolventen sondern auch Studienabbrecher ein- 
bezogen. 


e Angehörige desselben Immatrikulationsjahrgangs studieren unter den selben 
Rahmenbedingungen. 


e Die Überprüfung von außeruniversitären Maßnahmen (wie der Einführung 
eines Leistungsnachweises für die Familienbeihilfe oder der Einführung von 
Studiengebühren) und von inneruniversitären Maßnahmen zur Studienzeit- 
verkürzung (etwa dem WU-Projekt “Studieren in Teams”, das die Stu- 
dieneingangsphase erleichtern und somit die Studiendauer verkürzen helfen 
soll) ist durch Vergleich von Kohorten möglich. 


e Durch Teilung des Studiums in einzelne Phasen (erstes Studienjahr bzw. 
Studieneingangsphase, erster Abschnitt) können schon früh Vergleiche mit 
früheren Kohorten gezogen und erste Aussagen über die “Performance” des 
“aktuellen” Jahrgangs und Wirkung von getroffenen Maßnahmen gemacht 
werden. 


In der vorliegenden Arbeit werden Studienanfänger-Jahrgänge analysiert. Es 
wird herausgearbeitet, dass sich zur Schätzung der Studiendauer und der Ab- 
bruchwahrscheinlichkeit von Studienanfänger-Jahrgängen sowie zur Analyse 
des Effekts von potentiellen Einflussgrößen auf die Studiendauer bzw. das 
Studienabbruch-Risiko speziell die statistischen Methoden der Ereignisanalyse 
eignen. 


Mit Hilfe dieses statistischen Verfahrens soll am Beispiel der Wirtschaftsuni- 
versität Wien (entsprechend den angeführten Zielsetzungen) die Beantwortung 
folgender beispielhafter Fragestellungen möglich sein: 


14 
Günther Sedlacek - 978-3-631-75405-4 
Downloaded from PubFactory at 01/11/2019 05:23:57AM 
via free access 


e Welche (zu Studienbeginn gegebenen) Merkmale (wie Schultyp, Schulnoten, 
Berufstätigkeit zu Studienbeginn oder Alter) beeinflussen die Studiendauer 
bzw. das Studienabbruch-Risiko? 


e Sind die Leistungen im ersten Studienjahr prädiktiv für die Studiendauer 
und die Wahrscheinlichkeit eines Studienabbruchs? Welche Zusammenhänge 
bestehen zwischen einzelnen Studienphasen? 


e Führen Veränderungen in dynamischen Variablen (wie der Berufsintensität, 
dem Betreiben einer zweiten Ausbildung oder der Betreuung eines Kindes) 
zu Verzögerungen im Studium? 


e Sind Unterschiede in der Erklärung von frühen und späten Studienabbrüchen 
zu finden? 


1.3 Aufbau und Gliederung 


Die Arbeit ist in zwei Teile unterteilt. Der erste Teil behandelt die statistische 
Theorie der Ereignisanalyse, die die Grundlage für den zweiten, empirischen 
Teil bildet. Ereignisanalysen haben in den letzten beiden Jahrzehnten in vie- 
len Bereichen und in der statistischen Literatur zunehmend an Bedeutung 
gewonnen (siehe Abschnitt 2.1), ihre Grundkonzepte und Methoden sind (im 
Gegensatz zur linearen Regression oder zur Analyse von Kontigenztafeln etwa) 
jedoch kaum in Grundlagenbüchern der Statistik und der empirischen Sozial- 
forschung zu finden; eine Ausnahme in der deutschsprachigen Literatur bilden 
beispielsweise die Statistik-Lehrbücher von Toutenburg (2000a,b). 


Mit dem Begriff Ereignisanalyse werden statistische Verfahren zur Untersu- 
chung von Zeitintervallen zwischen aufeinanderfolgenden Ereignissen bezeich- 
net. Die wichtigsten Konzepte werden im ersten Teil überblicksmäßig erläutert 
und sollen den Leser mit den Methoden der Ereignisanalyse vertraut machen. 
Das Hauptaugenmerk liegt auf der Behandlung von Problemstellungen, die 
für die Analyse von Studienverläufen typisch sind. Zahlreiche Literaturhin- 
weise zu den jeweiligen Abschnitten ermöglichen eine vertiefende Analyse der 
präsentierten Methoden. 


Im Detail wird im ersten Teil auf folgende Themen eingegangen: 


e Kapitel 2 setzt sich im ersten Abschnitt mit der zunehmenden Bedeu- 
tung der Ereignisanalyse auseinander, die sich in den vielfältigen Anwen- 
dungsbereichen, in der Verfügbarkeit vieler Methoden in der kommerziellen 
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Statistik-Software (wie zum Beispiel SAS, S-PLUS, BMDP und SPSS) und 
in den in den letzten Jahren zahlreich erschienenen Monographien zum The- 
ma verdeutlicht. Der zweite Abschnitt geht auf die Spezifika der Ereignis- 
analyse ein und erläutert, warum Ereignisdaten eigene Analyse-Methoden 
verlangen. 


Kapitel 3 befasst sich im ersten Abschnitt mit Funktionen, die zur Beschrei- 
bung von Ereignisdaten verwendet werden - nämlich mit der Hazard- und 
der Überlebensfunktion. Im zweiten Abschnitt werden zensierte und abge- 
schnittene Daten erläutert; das sind unvollständige Daten, die für Problem- 
stellungen der Ereignisanalyse und besonders für Studienverlaufsanalysen 
typisch sind. 


Kapitel 4 diskutiert gängige nicht-parametrische Verfahren zur Analyse von 
Verweildauern - die Kaplan-Meier-, die Nelson-Aalen- und die Sterbetafel- 
Methode. Diese Verfahren eigenen sich vor allem zur explorativen Ana- 
lyse von Ereignisdaten. Nicht-parametrische Methoden zum Vergleich der 
Überlebensfunktionen von Teilpopulationen werden im letzten Abschnitt 
erläutert. 


Die Einbeziehung erklärender Variablen in das statistische Modell und die 
Ermittlung des Effektes dieser Variablen auf die Dauer bis zum Eintreffen 
eines Ereignisses sind für die statistische Analyse von großer Bedeutung und 
auch im zweiten Teil dieser Arbeit die zentrale Aufgabenstellung. 


Kapitel 5 diskutiert parametrische Regressionsmodelle zur Analyse von Ver- 
weildauern unter Einbeziehung von erklärenden Variablen. Parametrische 
Modelle erfordern Verteilungsannahmen für die Zeitdauer. Im ersten Ab- 
schnitt des Kapitels werden typische Verteilungsannahmen wie das Expo- 
nential- und Weibull-Modell beschrieben. Der zweite Abschnitt geht auf die 
Schätzung der Parameter dieser Variablen ein. Im dritten Abschnitt wer- 
den Methoden zur Überprüfung der Verteilungsannahmen behandelt. Der 
letzte Abschnitt dieses Kapitels setzt sich mit dem stückweise konstanten 
Exponential-Modell auseinander, das eine Verallgemeinerung des einfachen 
Exponential-Modells ist, jedoch die Daten zumeist weitaus besser beschreibt 
und daher in Anwendungsfällen häufig verwendet wird. 


Kapitel 6 setzt sich mit dem semiparametrischen proportionalen Modell 
von Cox auseinander. Dieses Modell wird häufig in angewandten Analy- 
sen verwendet, da es keine Verteilungsannahme für die Zeitdauer verlangt 
und somit flexibler als parametrische Regressionsmodelle ist. Im ersten Ab- 
schnitt werden die grundlegenden Eigenschaften des Modells erläutert, etwa 
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die Annahme von proportionalen Hazardraten zweier Individuen mit un- 
terschiedlichen Ausprägungen in den (zeitunabhängigen) Kovariablen; der 
zweite Abschnitt behandelt die gegenüber parametrischen Modellen mo- 
difizierte Schätzung der Modell-Parameter. Der darauffolgende Abschnitt 
diskutiert die Einbeziehung von zeitabhängigen Kovariablen in semipara- 
metrische und parametrische Ereignisdatenmodelle. Danach wird das stra- 
tifizierte Cox-Modell behandelt, das etwa bei Verletzung der Proportiona- 
litätsannahme verwendet wird. Modellüberprüfungen mit Hilfe von Residu- 
en sind das Thema des letzten Abschnitts. 


e Inden beiden darauffolgenden Kapiteln 7 und 8 werden die in den Kapiteln 3 
bis 6 für kontinuierliche Modelle mit einem Anfangszustand und einem (ab- 
sorbierenden) Endzustand präsentierten Methoden auf den Mehr-Zustands- 
und Mehr-Episoden-Fall (Kapitel 7) und auf diskrete Modelle (Kapitel 8) 
erweitert. 


Der zweite Teil umfasst die empirische Analyse der Studiendauer und des 
Studienabbruch-Risikos auf der Basis von Studieneingangs-Kohorten der Wirt- 
schaftsuniversität. Mit Hilfe der im ersten Teil beschriebenen Methoden der Er- 
eignisanalyse werden bestimmte Fragestellungen zu Studiendauer und -abbruch 
beantwortet. 


e Kapitel 9 setzt sich einleitend mit (nationalen und internationalen) Studien 
zu den Themen Studiendauer und Studienabbruch auseinander. Dabei wird 
zwischen Arbeiten unterschieden, in denen Daten aus der Hörerevidenz oder 
aus Befragungen analysiert worden sind. Im Abschnitt 9.3 wird auch auf 
zwei Arbeiten eingegangen, in denen die Studiendauer und das Studien- 
abbruch-Risiko mit Hilfe von Ereignisdatenmodellen analysiert worden sind. 


e Kapitel 10 erläutert im ersten Abschnitt, welche Daten in der Studenten- 
Datenbank der Wirtschaftsuniversität in welcher Form zur Verfügung ste- 
hen. Im darauffolgenden Abschnitt wird das Design und der Inhalt der 
durchgeführten Befragung (zur Erhebung ergänzender Variablen) behandelt 
und auf Probleme der Datenaufbereitung eingegangen. 


e Das darauffolgende Kapitel 11 analysiert die verfügbaren Daten deskriptiv 
und versucht, (in Form von Kreuztabellen) erste Zusammenhänge zwischen 
einzelnen Variablen und dem Studierstatus aufzuzeigen. 


e Die Kapitel 12 und 13 bilden den Schwerpunkt des zweiten Teils der Arbeit. 
In den beiden Kapiteln werden die im ersten Teil beschriebenen Verfahren — 
insbesondere parametrische und semiparametrische Mehr-Zustands-Modelle 
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— auf die in den vorangegangenen Kapiteln erläuterten Daten angewendet 
und spezifische Fragestellungen zu Studiendauer und -abbruch beantwortet. 


Im Kapitel 14 wird auf weitere Analysemöglichkeiten der vorliegenden Da- 
ten eingegangen. So kommen etwa Modelle zur Anwendung, mit denen auch 
einzelne Studienphasen (Studieneingangsphase, erster und zweiter Studien- 
abschnitt) getrennt voneinander bzw. in Abhängigkeit zueinander analysiert 
werden können. 


Das letzte Kapitel fasst die wichtigsten Ergebnisse zusammen. 
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Teil A 
Statistische Theorie der 
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Kapitel 2 


Einführung in die 
Freignisanalyse 


Dieses einführende Kapitel soll dem Leser typische Anwendungsmöglichkeiten 
und Problemstellungen der Ereignisanalyse näher bringen. Es wird erläutert, 
was Ereignisdaten sind, wie sie erhoben und mit welchen Zielsetzungen Ereig- 
nisanalysen meist durchgeführt werden. Anhand der Spezifika der Ereignisana- 
lyse — die Berücksichtigung von zensierten Daten und zeitabhängigen Variablen 
— wird erklärt, warum Ereignisdaten ihre eigenen Analyse-Methoden verlan- 
gen und nur mit (großem) Informationsverlust mit ”klassischen” Methoden 
wie logistische und lineare Regression behandelt werden können. 


2.1 Ein Überblick über die Ereignisanalyse 


Entwicklung der Methoden in verschiedenen Anwen- 
dungsfeldern 


Die Ereignisanalyse bezeichnet eine Klasse von statistischen Verfahren, die 
Zeitdauern zwischen aufeinanderfolgenden Zustandswechseln bzw. Ereignissen 
untersuchen. Diese Verfahren haben in den letzten beiden Jahrzehnten zu- 
nehmend an Bedeutung gewonnen und in verschiedensten Gebieten ihre An- 
wendung gefunden. Hosmer und Lemeshow (1999) meinen zu den jüngsten 
Entwicklungen auf diesem Gebiet: ”It is difficult to find either a subject mat- 
ter or a statistical journal that does not have at least one paper devoted to use 
or development of these methods”. Auch die Gründung der Zeitschrift Lifeti- 
me Data Analysis im Jahr 1995, die ausschließlich den statistischen Methoden 
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und Anwendungen der Ereignisanalyse gewidmet ist, widerspiegelt die zuneh- 
mende Bedeutung dieser Methoden. Die Herausgeber der Zeitschrift nennen 
als Anwendungsgebiete der Ereignisanalyse beispielsweise: actuarial science, 
economics, engineering sciences, environmental sciences, management science, 
medicine, operations research, public health, social and behavioral sciences. Die 
zahlreichen Anwendungsfelder, in denen sich diese Verfahren oft unabhängig 
entwickelt haben, sind auch der Grund, warum die gleichen statistischen Grund- 
konzepte - je nach Anwendungsgebiet und Fragestellung — unter verschiedenen 
(englischen) Namen geführt werden. Allison (1998) listet die Begriffe Survival 
Analysis (Medizin), Event History Analysis (Sozial- und Wirtschaftswissen- 
schaften), Reliability Analysis, Duration Analysis (beide in den Naturwissen- 
schaften) und Transition Analysis (Volkswirtschaft) auf. 


Am häufigsten wird in der englischsprachigen Literatur der Begriff Survival 
Analysis verwendet, da die Methoden der Ereignisanalyse urspriinglich vor al- 
lem in klinischen Studien zur Analyse der Uberlebenszeit von Patienten nach 
einer bestimmten Therapie eingesetzt worden sind. Die Medizin stellt bis heute 
ein sehr breites Anwendungsfeld der Ereignisanalyse dar, jedoch wird der Be- 
griff Survival Analysis auch bei nicht-medizinischen Anwendungen und Mehr- 
Episoden-Modellen verwendet. 


Auch im deutschsprachigen Raum werden die Begriffe Ereignis(daten)analyse, 
Verlaufs(daten)analyse und Lebensdauer- bzw. Uberlebensanalyse fiir die glei- 
chen statistischen Grundkonzepte verwendet, wobei der Begriff Lebensdauer- 
bzw. Uberlebensanalyse meist nur fiir Ein-Episoden-Modelle benutzt wird. In 
dieser Arbeit wird der Begriff Ereignis(daten)analyse verwendet. 


Haufige Anwendungsbeispiele aus der Sozialforschung sind: 


e Studien zum Thema Beschäftigung; hier interessiert beispielsweise die Zeit- 
dauer bis zum Wechsel oder Verlust des Arbeitsplatzes, bis zur Beförderung 
innerhalb einer Firma oder die Dauer der Arbeitslosigkeit 


e Demographische Studien, in denen zum Beispiel das Lebensalter von Frauen 
bei Geburt ihres ersten Kindes, das Lebensalter bei der ersten Heirat oder 
die Dauer von Ehen untersucht wird; sowie 


e Studien zur “Überlebensdauer” von Unternehmen, der Dauer bis zum Zu- 
sammenbruch eines politischen Systems 


In dieser Arbeit ist die Studiendauer, das heißt die Dauer bis zum erfolgreichen 
Studienabschluss bzw. bis zum -abbruch, von Interesse. 
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Literaturüberblick mit Schwerpunkt auf anwendungsori- 
entierten Monographien 


Auch die kommerzielle Statistik-Software hat der wachsenden Bedeutung die- 
ser Verfahren Rechnung getragen und erlaubt mittlerweile die Anwendung der 
gängigen Methoden der Ereignisanalyse. Harrell und Goldstein (1997) ver- 
gleichen die wichtigsten kommerziellen Statistik-Software Angebote bezüglich 
ihrer Anwendungsmöglichkeiten für Ereignisanalysen. Allison (1998) erläutert 
ausführlich die Anwendung der vorgestellten Verfahren (anhand von Daten- 
sätzen aus verschiedenen Bereichen) mit Hilfe von SAS; Klein und Moeschber- 
ger (1997) geben in einigen praktischen Hinweisen am Ende eines jeden Ab- 
schnitts an, welche Statistik-Software sich zur Durchführung der vorgestellten 
Verfahren eignet, und Kleinbaum (1996) gibt anhand von Beispielen Hinweise 
zur Anwendung von SPIDA, SAS und BMDP; die behandelten Datensätze in 
den beiden letztgenannten Werken entstammen dem medizinischen Bereich. 
Auch die in den letzten Jahren zahlreich erschienenen (angewandten) Mono- 
graphien zum Thema (zum Beispiel Collett (1994), Harrell (1997), Hosmer 
und Lemeshow (1999), Le (1997), Lee (1992), Yamaguchi (1991)) enthalten 
Hinweise zur Lösung der präsentierten Beispiele (meist aus dem medizinischen 
Bereich) mit kommerzieller Statistik-Software. 


G. Rowher entwickelte zur Anwendung der Ereignisanalyse die Software TDA 
( Transition Data Analysis), die über Internet frei zugängig ist (http://www.stat. 
ruhr-uni-bochum.de/tda.html); das Handbuch zu dieser Software von Rohwer 
und Pötter (1998), das ausführliche Erläuterungen der dazugehörigen statisti- 
schen Theorie enthält, kann ebenfalls im Internet heruntergeladen werden. In 
Blossfeld und Rohwer (1995) werden einerseits Ereignisdatenmodelle zur kau- 
salen Analyse von sozialen Prozessen erläutert, andererseits wird die Verwen- 
dung der Software TDA zur Analyse von Ereignisdaten demonstriert. Weitere 
angewandte Monographien - schwerpunktmäßig mit Beispielen aus der sozial- 
wissenschaftlichen Forschung - sind Allison (1984) und Blossfeld et al. (1986). 


Zur steigenden Bedeutung der Ereignisanalyse hat auch die Theorie der Zählpro- 
zesse (engl. counting processes) und der Martingale beigetragen. Die Anwen- 
dung dieser Theorie ermöglichte — auf relativ einfache Weise — die Untersu- 
chung der statistischen Eigenschaften der nicht-parametrischen und parame- 
trischen Methoden der Ereignisdatenanalyse, die vorher zum Teil nur auf sehr 
komplexe Weise oder gar nicht untersucht wurden, und rechtfertigt somit die 
in der Ereignisanalyse verwendeten Verfahren der schließenden Statistik. Eine 
detaillierte Darstellung dieser Theorie und der Resultate, die durch ihre An- 
wendung für die Ereignisdatenanalyse erzielt worden sind, können interessierte 
Leser in Fleming und Harrington (1991) und Andersen et al. (1993) nachlesen; 
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Hosmer und Lemeshow (1999) sowie Klein und Moeschberger (1997) geben 
einen kurzen Überblick über diese Theorie und führen laufend an, welche Re- 
sultate auf die Theorie der Zählprozesse zurückzuführen sind, deren Herleitung 
detailliert in einem der beiden oben erwähnten Bücher nachgelesen werden 
kann. 


Daneben zählen folgende Monographien zu Standardwerken der Ereignisda- 
tenanalyse: Cox und Oakes (1984), Kalbfleisch und Prentice (1980), Lanca- 
ster (1990), Lawless (1982) sowie Tuma und Hannan (1984). Einen kurzen 
Überblick über die Grundkonzepte und Spezifika der Ereignisanalyse geben 
zum Beispiel Hougaard (1999a) und Petersen (1990). 


2.2 Ereignisdaten und Spezifika der Ereignis- 
analyse 


Erheben von Ereignisdaten 


Ereignisdaten informieren für jede Untersuchungseinheit (Individuum, Firma, 
technisches Gerät etc.) über die Länge des Zeitintervalls bis zum Eintreffen 
eines Ereignisses, das den Übergang zwischen Zuständen beschreibt und daher 
auch als Zustandswechsel bezeichnet wird. Die Dauer bis zum Eintreffen des Er- 
eignisses wird im statistischen Modell repräsentiert durch eine nicht-negative 
Zufallsvariable T. Die Zustandsvariable, die oft auch als Zustandsraum be- 
zeichnet wird, kann endlich viele Ausprägungen besitzen und stellt somit eine 
diskrete Variable dar. Ein Beispiel für eine Zustandsvariable ist der Studiersta- 
tus. Es kann zwischen laufenden, abgeschlossenen und abgebrochenen Studien 
unterschieden werden. Der Studienabschluss erklärt den Zustandswechsel vom 
Studierenden zum Absolventen. Ein weiteres Beispiel ist die Variable Famili- 
enstand mit den Ausprägungen ledig, verheiratet, geschieden und verwitwet. 
Das Ereignis (erste) Heirat beschreibt etwa den Übergang vom Zustand ledig 
in den Zustand verheiratet. 


Zur Erhebung ereignisorientierter Daten eignet sich am besten ein prospek- 
tiver Beobachtungsplan, in dem Untersuchungseinheiten, die ein bestimmtes 
Ereignis in einem gewissen Zeitraum erlebt haben, vom Zeitpunkt dieses Er- 
eignisses (dem Ausgangszeitpunkt bzw. Beginn der Beobachtungsperiode) bis 
zu einem Zustandswechsel oder bis zum Ende des Beobachtungszeitraums ver- 
folgt werden. Ereignisse, die den Beginn der Beobachtungsperiode definieren, 
sind beispielsweise der Beginn eines Universitätsstudiums, die Entlassung aus 
dem Gefängnis oder die Diagnose einer bestimmten Krankheit. Je nach Frage- 
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stellung werden die Untersuchungseinheiten im ersten Fall etwa bis zum Stu- 
dienabschluss oder -abbruch, im zweiten Fall bis zum Rückfall der Straftäter 
und im dritten bis zum Tod verfolgt. Der Beginn der Beobachtungsperiode 
gibt den Zeitpunkt an, ab dem bekannt ist, dass die Untersuchungseinheiten 
dem Risiko (oder der Chance) ausgesetzt sind, dass das interessierende Ereig- 
nis eintrifft. Diese Periode wird daher auch oft als Risikoperiode bezeichnet, 
und die Menge aller Untersuchungseinheiten, die zu einem gewissen Zeitpunkt 
t dem Risiko eines Ereignisses ausgesetzt sind, wird als Risikomenge R(t) zum 
Zeitpunkt t bezeichnet. Untersuchungseinheiten, die zu Studienende noch der 
Risikomenge angehören, nennt man rechts-zensiert. Diese Untersuchungsein- 
heiten liefern die Information, dass das betrachtete Ereignis bis zum Ende der 
Beobachtungsperiode nicht eingetroffen ist, und werden in den Schätzverfahren 
der Ereignisanalyse berücksichtigt; siehe Abschnitt 3.2. 


Prospektive Beobachtungspläne sind häufig sehr zeit- und kostenaufwendig, da 
es lange dauern kann, bis eine genügend große Anzahl von Ereignissen beob- 
achtet worden ist. Aus diesem Grund werden häufig retrospektive Erhebungen 
von ereignisorientierten Daten in Form von Befragungen durchgeführt. Bei die- 
sen Beobachtungsplänen werden Individuen rückwirkend nach dem Eintreffen 
der interessierenden Ereignisse gefragt. Bei retrospektiven Datenerhebungen 
treten vor allem zwei Probleme auf: 


e Die befragten Individuen wissen eventuell nicht mehr die genauen Zeit- 
punkte, wann die interessierenden Ereignisse eingetroffen sind; sie können 
den exakten Verlauf nicht mehr rekonstruieren. 


e Retrospektive Studien berücksichtigen nicht die Daten jener Individuen, die 
zum Befragungszeitpunkt nicht befragt werden konnten, weil sie beispiels- 
weise gestorben, ausgewandert oder aus sonstigen Gründen nicht erreichbar 
sind. 


In retrospektiv durchgeführten Lebensverlaufs- bzw. Berufsverlaufsstudien kom- 
men beide Probleme zu tragen; vgl. Blossfeld und Rohwer (1995). Aber auch 
in Studienverlaufsanalysen ist man mit diesem Problem konfrontiert; siehe Ab- 
schnitt 10.2. Manchmal besteht die Möglichkeit, die meist lückenlos vorhande- 
nen Daten aus administrativen Datenbanken — zum Beispiel von Universitäten 
oder Firmen — zu verwenden. 


Ereignisdatenanalysen werden in der Regel durchgeführt, um den Einfluss von 
bestimmten Variablen auf die Dauer bis zum Eintreffen des interessierenden 
Ereignisses zu ermitteln. Diese Variablen können zeitkonstant sein, wie zum 
Beispiel das Geschlecht oder die Rasse, oder sich mit der Zeit ändern, wie 
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der Familienstand oder das Einkommen. Bei zeitveränderlichen Variablen tritt 
bei retrospektiven Beobachtungsplänen, beispielsweise bei (retrospektiven) Le- 
bensverlaufsstudien, auch häufig das Problem auf, dass sich die Befragten nicht 
mehr genau an den Verlauf dieser Variablen erinnern. In Studienverlaufsanaly- 
sen ist anzunehmen, dass die Intensität der Erwerbstätigkeit neben dem Studi- 
um einen Einfluss auf die Studiendauer hat. Um plausible Daten zu erhalten, 
kann der Verlauf der Variablen Berufstätigkeit mittels einer retrospektiven 
Befragung nur approximativ erhoben werden — und zwar in durchschnittli- 
chen Wochenstunden je Semester, Studien- oder Kalenderjahr. Studierende, 
bei denen häufig die Arbeitsintensität wechselt, werden sich nur ungenau an 
ihr Berufsausmaß je Monat zurückerinnern; siehe Abschnitt 10.2. Zudem wer- 
den die Befragungen mit der Einbeziehung von zeitveränderlichen Variablen 
zunehmend komplexer. 


Notwendigkeit von spezifischen Analyse-Methoden 


Es sind vor allem zwei Gründe, warum ereignisorientierte Daten (meist) nur 
mit großem Informationsverlust mit konventionellen statistischen Modellen be- 
handelt werden können: zensierte Daten und zeitabhängige Variablen. Ereigni- 
sorientierte Studien enthalten — wie bereits erwähnt — häufig Daten, für die im 
Beobachtungszeitraum das interessierende Ereignis nicht eingetroffen ist; der 
Ereigniszeitpunkt liegt daher in der Zukunft und ist zum Endzeitpunkt der 
Beobachtungsperiode nicht bekannt (rechts-zensierte Daten). Für diese Da- 
ten kann daher keine Zeitdauer bis zum Eintreffen des Ereignisses angegeben 
werden, jedoch kennt man mit dem Ende des Beobachtungszeitraums eine un- 
tere Schranke für die zu untersuchende Zeitdauer. Die Nicht-Berücksichtigung 
dieser Information durch Weglassen dieser Daten kann - vor allem bei einem 
hohen Anteil solcher Fälle - zu stark verzerrten Schätzern — etwa der erwarte- 
ten Dauer - führen. 


Mit Hilfe von Logit- und Probit-Modellen (siehe Aldrich und Nelson (1987) 
für einen Überblick) kann etwa die Information, dass für Untersuchungsein- 
heiten das Ereignis bis zu einem gewissen Zeitpunkt nicht eingetroffen ist, 
einbezogen werden. Die Ausprägungen der abhängigen dichotomen Variablen 
eines Modells für den Studienerfolg können beispielsweise sein: “abgeschlossen” 
(bis zum Ende der Beobachtungsperiode) oder “noch im Studium”. In diesem 
Modell geht jedoch die Information der exakten Studiendauer der Absolventen 
verloren, die Schätzungen hängen von dem gewählten Ende des Beobachtungs- 
zeitraums ab. In linearen Regressionsmodellen (siehe Draper und Smith (1981) 
für einen Überblick) mit der Dauer bis zum erfolgreichen Studienabschluss als 
abhängige Variable können wiederum rechts-zensierte Daten nicht einbezogen 
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werden. In beiden Modellen werden auch nicht die Daten von Studienabbre- 
chern berücksichtigt. 


Im Rahmen eines ereignisorientierten Versuchsplans können Variablen, die sich 
mit der Zeit ändern, beobachtet werden. Veränderungen der Werte dieser Va- 
riablen im Laufe des dynamischen Prozesses können die Dauer bis zum Ein- 
treffen des interessierenden Ereignisses stark beeinflussen. Beispielsweise ist 
zu vermuten, dass der Beginn einer Berufstätigkeit im Laufe des Studiums 
die Chancen auf einen schnellen Studienabschluss verringert. Ebenso können 
zeitvariierende Effekte von Variablen analysiert werden. Es ist etwa zu ver- 
muten, dass manche Variablen zu Beginn des Studiums einen Einfluss auf das 
Studienabbruch-Risiko haben, der mit der Zeit nachlässt. Konventionelle Me- 
thoden bieten nicht so flexible Möglichkeiten, zeitabhängige Variablen in das 
Modell zu integrieren und zeitliche Änderungen von Effekten zu analysieren. 


Im Laufe der vorliegenden Arbeit wird erläutert, in welcher Form Ereignis- 
datenmodelle die Implementierung von zensierten Daten und zeitabhängigen 
Variablen erlauben; siehe Abschnitte 3.2, 5.2 und 6.3. 


Klassifikation der Verfahren 


Im nächsten Kapitel werden die Grundkonzepte der Ereignisdatenanalyse und 
in den darauffolgenden Kapiteln die gängigen Methoden zur Analyse von Er- 
eignisdaten erläutert. Dabei unterscheiden wir zwischen 


e nicht-parametrischen, semiparametrischen und parametrischen Modellen; 
nicht-parametrische Methoden beschreiben die Verteilung der Zeitdauer bis 
zu einem Ereignis, semiparametrische und parametrische Modelle wollen vor 
allem den Eflekt von potentiellen Einflussfaktoren ermitteln. 


e kontinuierlichen und diskreten Modellen; können etwa die Ereignisse zu be- 
liebigen Zeitpunkten auftreten und sind die Ereigniszeitpunkte genau ge- 
nug gemessen, sodass die Anzahl gleicher Beobachtungswerte nicht zu groß 
ist, werden kontinuierliche Modelle verwendet, ansonsten diskrete Modelle. 
Wird die Dauer bis zum erfolgreichen Studienende in Monaten angegeben, 
so eignet sich ein kontinuierliches Ereignisdatenmodell, bei Messung der 
Studiendauer in Semestern sind diskrete Modelle zu verwenden. | 


e Modellen mit einem Anfangszustand und einem Endzustand und den soge- 
nannten Mehr-Zustands- und Mehr-Epsioden-Modellen; bei Mehr-Zustands- 
Modellen wird zwischen verschiedenen Ereignisarten unterschieden, die die 
Periode in einem Anfangszustand beenden - beispielsweise beendet sowohl 
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der Studienabschluss als auch der Studienabbruch das Studium — und bei 
Mehr-Episoden-Modellen durchläuft die Untersuchungseinheit mehrere Pe- 
rioden, etwa Studienphasen bzw. -abschnitte. 
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Kapitel 3 


Grundkonzepte 


Die Grundbegriffe, die in diesem Kapitel erläutert werden, und die in den da- 
rauffolgenden Kapiteln behandelten Methoden werden für kontinuierliche Mo- 
delle mit einem Anfangszustand und einem Endzustand definiert. Die Erwei- 
terungen der Begriffe und Methoden auf Mehr-Zustands- und Mehr-Episoden- 
Modelle und auf diskrete Modelle werden in den beiden entsprechenden Kapi- 
teln 7 und 8 erläutert. 


3.1 Hazardrate, Überlebens- und Dichtefunk- 
tion 


Es sei T die Zeitdauer bis zum Eintritt eines bestimmten Freignisses; sie ist 
eine nicht-negative stetige Zufallsvariable und f(t) und F(t) die Dichte- und 
Verteilungsfunktion von T. Dann wird mit 


S(t) = P(T >t) =1 — F(t) 


die Überlebensfunktion (survivor- oder survival-Funktion) bezeichnet. Sie 
gibt die Wahrscheinlichkeit dafür an, dass ein Individuum den Zeitpunkt t 
“erlebt” hat, das heißt, dass bis zu diesem Zeitpunkt noch kein Ereignis einge- 
treten ist. Für die Überlebensfunktion S(t) gilt S(0) = 1, und ihr Verlauf ist 
monoton fallend. 


Eine zentrale Größe bei der Analyse von Ereignisdaten ist die Hazardfunkti- 
on bzw. Hazardrate. Sie gibt das augenblickliche Risiko zum Zeitpunkt T = t 
an, dass das betrachtete Ereignis eintrifft — unter der Voraussetzung, dass das 
Ereignis nicht vor t eingetreten ist. Daher wird sie auch als Risikofunktion 
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bezeichnet. Sie ist definiert als 
1 
h(t) im ‚Pit <T<t+At|T >t). 


Die Hazardrate kann als Grenzwert der bedingten Wahrscheinlichkeit aufge- 
fasst werden, dass die Episode im Intervall [t,t+ At) zu Ende geht — unter der 
Voraussetzung, dass das interessierende Ereignis nicht schon vor Beginn des 
Intervalls eingetroffen ist. Die Hazardrate kann nicht als bedingte Wahrschein- 
lichkeit interpretiert werden; sie ist nicht-negativ, kann aber Werte größer als 
Eins annehmen. Das Produkt h(t)At kann jedoch als Approximation der be- 
dingten Wahrscheinlichkeit P(t < T <t+At|T > t) aufgefasst werden. 


Mit Hilfe von Hazardraten ist es möglich zu überprüfen, wie sich das Ereignisri- 
siko (oder im positiven Sinne die Chance auf ein Ereignis) mit der Zeit ändert. 
In vielen Anwendungsfällen besitzt man ein a-priori Wissen über die Ge- 
stalt der Hazardrate. Beispielsweise ist zu vermuten, dass das Studienabbruch- 
Risiko (das durch die Hazardrate dargestellt werden kann) einen badewan- 
nenförmigen Verlauf hat. Das Abbruchrisiko ist zu Beginn des Studiums hoch, 
fällt dann ab und bleibt über einen bestimmten Zeitraum konstant, bis es 
wieder mit zunehmender Studiendauer leicht ansteigt. Das Sterberisiko bei 
den Menschen und das Ausfallsrisiko vieler technischer Geräte folgen einem 
ähnlichen Verlauf. Die Hazardrate für den Abschluss eines Studiums (Studi- 
enabschlussrate) an der Wirtschaftsuniversität steigt (vermutlich) nach dem 
achten Semester (Mindeststudiendauer) stark an, um später wieder leicht zu 
fallen; siehe Kapitel 12. 


Das Integral 
H(t) = i h(u)du 
wird als kumulative Hazardrate bezeichnet. 


Aus diesen Definitionen lassen sich folgende Beziehungen zwischen den drei 
Größen herleiten: 


AG). = e 
S(t) = exp (- N h(u)du) = exp|-H(t)] 
f(t) = h(t)S(t) = hlt) exp (- Í ' h(u)du) 


Diese Beziehungen lassen erkennen, dass Dichte-, Uberlebens- und Hazard- 
funktion äquivalente Möglichkeiten zur Beschreibung des Prozessverlaufs sind. 
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Ist eine der drei Funktionen festgelegt, sind die beiden anderen Funktion ein- 
deutig ableitbar. Eine Herleitung dieser Beziehungen und ein systematischer 
Überblick über die Beziehungen zwischen den drei Funktionen sind beispiels- 
weise in Wangler (1997) zu finden. 


Die erwartete Dauer, E(T), die erwartete Restdauer zu einem bestimmten 
Zeitpunkt tı, E(T — tı|T > tı), und die Varianz, Var(T), lassen sich wie folgt 
berechnen: 


E(T) f ” tf (t)dt = I ” S(t)dt 


fa (t-t)f(tdt _ Ir S(t)dt 
S(t) Sh) 


2 | a 45(t)dt - | | ” (eat) 


Das p-Quantil t, erhält man, indem man die Gleichung S(t,) = 1 — p löst, also 
= S-!(1—p). 
Wahrscheinlichkeitsverteilungen, die typischerweise zur Beschreibung von Ver- 


läufen verwendet werden, behandelt — unter Einbeziehung von Kovariablen — 
ausfiihrlich das Kapitel 5.1. 


E(T = t,|T > tı) 


Var(T) 


3.2 Zensieren und Abschneiden 


Bei der Analyse von Zeitdauern bis zu einem betrachteten Ereignis ist man 
in der Regel mit unvollständigen Zeitdauern oder mit einer eingeschränkten 
(selektiven) Grundgesamtheit, die ein bestimmtes Ereignis schon erlebt hat, 
konfrontiert. Besonders häufig treten bei Daten, die nach einem ereignisorien- 
tierten Versuchsplan erhoben werden, — wie im Abschnitt 2.2 erwähnt - Fälle 
auf, die durch das Ende des Beobachtungszeitraums zensiert werden. 


Zensierung aufgrund des Stichtags (Ende des Beobachtungszeitraums) der Stu- 
die fällt unter den Typ Rechts-Zensieren, für den folgende Fälle unterschie- 
den werden können: 


1. Typ I- Zensierung tritt auf, falls die Studie nach einer fixen Zeitperiode be- 
endet wird, und sich noch Elemente in der Risikomenge befinden. Bei Ana- 
lysen der Studiendauer von Studieneingangs-Kohorten etwa gehören jene 
Studierenden, die zum festgelegten Studienende noch studieren, zu diesem 


‘Typ. 


31 
Günther Sedlacek - 978-3-631-75405-4 
Downloaded from PubFactory at 01/11/2019 05:23:57AM 
via free access 


2. Typ II - Zensierung tritt auf, falls die Studie nach einer bestimmten, fix 
vorgegebenen Anzahl r < n von eingetroffenen Ereignissen beendet wird. 


In beiden Fällen ist von den Elementen, die zu Studienende noch in der 
Risikomenge sind, bekannt, dass für sie das interessierende Ereignis bis zum 
Studienende nicht eingetroffen ist. 


3. Bei der zufälligen Zensierung werden die Zensierungszeiten im Unterschied 
zu den eben angeführten Fällen als Realisierungen von Zufallsvariablen ge- 
sehen. Die Zensierung erfolgt während der Risikoperiode durch Eintreffen 
eines vom betrachteten Ereignis verschiedenen, vom Zufall abhängigen Er- 
eignisses. Der Tod durch Unfall ist ein typisches Beispiel für eine zufällige 
Zensierung eines Individuums der Risikomenge. 


Die Einbeziehung von Typ I und II zensierten Fällen in Ereignisdatenmodelle 
ist problemlos; für die Einbeziehung zufällig rechts-zensierter Daten verlangen 
jedoch alle Standardmethoden der Ereignisdatenanalyse, dass die Ereigniszei- 
ten T; und die Zensierungszeiten C; — unter Berücksichtigung der einbezoge- 
nen Kovariablen bedingt — unabhängig sind; siehe Abschnitt 5.2. Kalbfleisch 
und Prentice (1980) beschreiben diese Bedingung, die ausführlich in Lagakos 
(1979) diskutiert wird, wie folgt: ” Essentially we require that, conditionally on 
the values of any explanatory variables, the items withdrawn from risk at time 
t should be ”representative” of the items at risk. In particular, items cannot be 
censored because they appear to be at unusually high or low risk of failure”. 


In vielen Anwendungsfällen ist jedoch zu vermuten, dass diese Bedingung nicht 
erfüllt ist. Die beiden folgenden Beispiele sollen diese wichtige Voraussetzung 
näher bringen: 


Unabhängiges Zensieren: Analysiert man beispielsweise die Zeitdauer von 
der Diagnose von Krebs bis zum Tod und stirbt ein in der Studie befind- 
liches Individuum bei einem Autounfall, so spricht man von unabhängiger 
Zensierung, da der Tod durch Autounfall unabhängig vom Tod durch Krebs 
ist. 


Bedingt (un)abhängiges Zensieren: Bei der Analyse von Studiendauern 
liegt beispielsweise die Vermutung nahe, dass jene Studierenden, die das 
Studium früher abbrechen, eher solche Studierenden sind, die für das Stu- 
dium länger gebraucht hätten. Unter der Annahme, dass der Effekt des 
Studienabbruchs auf den Studienabschluss durch die in das Modell einbe- 
zogenen Kovariablen nicht vollständig erklärt wird, spricht man von einer 
(residualen) abhängigen Zensierung. Kann man jedoch davon ausgehen, dass 
die Abhängigkeit der Zensierungs- und Ereigniszeiten vollständig durch die 
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einbezogenen Kovariablen erklärt wird, spricht man von einer bedingt un- 
abhängigen Zensierung. 


Sowohl das Analysieren von Studiendauern als auch von “Lebensdauern” von 
Geräten zeigt, dass (bedingt) (un)abhängiges Zensieren ein wichtiges Thema 
im Fall von Mehr-Zustands-Modellen ist. Im ersten Beispiel kann das Studium 
durch Abbruch oder Abschluss beendet werden und im zweiten Beispiel können 
Geräte aus verschiedenen Gründen ausfallen, die voneinander abhängig sein 
können oder nicht. Daher wird diese Thematik auch im Kapitel 7 ausführlich 
diskutiert. Abbildung 3.1 gibt ein Beispiel für Typ I und zufällige Zensierungs- 
zeiten. 


Ci 
TI 
C3 
—  ~ C4 
Start der Studie Ende der Studie 


Abbildung 3.1: Beispiel von Typ I zensierten (Cı und C3), zufällig zensierten 
Zeiten (Cz und C4) und Ereigniszeiten T; 


Unter links-zensierten Daten werden jene Fälle verstanden, bei denen nur 
bekannt ist, dass das betrachtete Ereignis irgendwann vor einem bekannten 
Zeitpunkt eingetreten ist. Beispiele fiir links-zensierte Zeitdauern sind: 


e In einer Analyse der Studiendauer von WU-Studierenden seit Beginn ihres 
ersten (nicht notwendigerweise an der Wirtschaftsuniversität) inskribierten 
Studiums anhand der in den administrativen Datenbanken der Wirtschafts- 
universität verfügbaren Daten ist von Wechselstudenten nur bekannt, dass 
sie vor ihrem WU-Studienbeginn schon an einer anderen Universitat inskri- 
biert waren. 


e In einer Studie wurden Schüler über 14 nach ihrem Alter beim ersten Dro- 
genkonsum gefragt. Einige antworteten, dass sie schon Drogen genommen 
haben, allerdings das Alter des ersten Drogenkonsums nicht mehr genau 
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wissen. Dann ist lediglich bekannt, dass der Zeitpunkt des ersten Drogen- 
konsums vor der Befragung war; siehe Klein und Moeschberger (1997). 


e In einer Studie der Lebensdauer seit dem Infizieren mit dem HIV-Virus ist 
(meist) nur der Diagnosezeitpunkt bekannt, jedoch weiß man vom Zeitpunkt 
des Infizierens nur, dass er vor dem Diagnosezeitpunkt liegt. 


Eine Untersuchungseinheit heißt intervall-zensiert, falls lediglich bekannt 
ist, dass das interessierende Ereignis im Intervall (a,b) eingetroffen ist. Links- 
Zensierung und Rechts-Zensierung können als Spezialfälle gesehen werden, in- 
dem a = 0 bzw. b = oo gesetzt wird. Bei der Analyse des Studienabruch-Risikos 
ist mit dem im System eingetragenen Abbruchdatum nur eine obere Grenze 
und mit dem Datum der letzten erbrachten Leistung eine untere Grenze des 
eigentlichen Datums des Studienabbruchs bekannt; die Daten sind intervall- 
zensiert. 


Beim Abschneiden (engl. truncation) werden nur jene Untersuchungseinheiten 
in die Studie miteinbezogen (selektiert), bei denen ein bestimmtes qualifizie- 
rendes Ereignis eingetroffen ist. 


Im Falle des Links-Abschneidens werden etwa nur jene Untersuchungsein- 
heiten in die Studie aufgenommen, die einen bestimmten Zeitpunkt oder ein 
bestimmtes Ereignis vor dem interessierenden Ereignis bis zum Ende des Beob- 
achtungszeitraums erlebt haben. Von diesen Individuen ist dann bekannt, dass 
sie in der Zeitdauer V vom Studienbeginn bis zum qualifizierenden Ereignis 
bzw. fixen Zeitpunkt zwar dem Risiko eines Ereignisses ausgesetzt waren, das 
Ereignis jedoch nicht eingetroffen ist; somit gilt T > V. 


Die folgenden Beispiele sollen den Begriff Links-Abschneiden näher bringen: 


e In einer Studie des Studienabbruch-Risikos von Studierenden des zweiten 
Studienabschnitts werden nur jene Studierenden einbezogen, die bis zum 
Ende der Beobachtungsperiode den ersten Abschnitt beendet haben. Jene 
Studierenden, die das Studium vor Beendigung des ersten Abschnitts abge- 
brochen haben oder bei Ende der Beobachtungsperiode den ersten Abschnitt 
noch nicht beendet haben, werden nicht berücksichtigt. Von den in die Stu- 
die aufgenommenen Studierenden ist jedoch bekannt, dass sie während des 
ersten Abschnittes nicht abgebrochen haben. 


e Auseiner administrativen Datenbank war bekannt, dass es am 1. Juli 1973 in 
einem bestimmten Teil Dänemarks 1499 Insulin-abhängige Diabetiker gab. 
In einer Studie der Lebensdauer seit Diagnose der Krankheit wurden diese 
Diabetiker bis zum Stichtag 1. Jänner 1982 verfolgt. Dem Design der Studie 
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entsprechend wurden also nur jene Diabetiker in die Studie aufgenommen, 
die am 1. Juli 1973 noch am Leben und Insulin-abhängig waren; es handelt 
sich daher um links-abgeschnittene Fälle; siehe Andersen et al. (1993). 


e In einer Firma wird die Hazardrate für einen Jobwechsel in Abhängigkeit 
von der Dauer des Arbeitsverhältnisses in dieser Firma (und von ergänzen- 
den Kovariablen) modelliert. Dazu werden zu Beginn der Studie alle Mitar- 
beiter befragt, wie lange sie schon für diese Firma arbeiten. Danach werden 
sie entweder bis zum Arbeitsplatzwechsel oder zum Ende der Beobachtungs- 
periode prospektiv beobachtet. Auch in diesem Beispiel werden nur Mitar- 
beiter in die Studie miteinbezogen, die nicht schon vor Beginn der Studie 
die Firma verlassen haben. 


e Interessieren in einer Studie der Lebensdauer seit dem Diagnosezeitpunkt 
von Leukämie nur jene Patienten, bei denen eine Knochenmarkstransplan- 
tation (= Zwischenereignis) durchgeführt worden ist, so sind dies auch links- 
abgeschnittene Fälle; für sie ist die Lebensdauer seit Diagnose größer als die 
Dauer bis zur Transplantation. 


Beim Rechts-Abschneiden werden nur Fälle in die Studie aufgenommen, 
die das interessierende Ereignis bereits erlebt haben. Die Statistik Österreich 
(ehemals Österreichisches Statistisches Zentralamt) erhebt bei allen Univer- 
sitätsabsolventen einige Daten zum Studium und zur Person. Untersuchungen 
der Studiendauer auf Basis dieser Absolventendatenbanken basieren auf rechts- 
abgeschnittenen Daten. 


Ein weiteres Beispiel ist etwa die Untersuchung der Zeitdauer vom Infizieren bis 
zum Ausbruch von AIDS, in der nur Daten von jenen Patienten verfügbar sind, 
bei denen AIDS bereits ausgebrochen ist. Dies tritt häufig in administrativen 
Datenbanken auf, wo ein Fall erst nach dem Ereigniszeitpunkt mit dem Datum 
des Infizierens und einigen zusätzlichen Kovariablen retrospektiv registriert 
wird; siehe Bilker und Wang (1996). 


Im Zuge dieser Arbeit - bei der Beschreibung der statistischen Verfahren der 
Ereignisanalyse und bei der Analyse der Studiendauer und des Studienabbruch- 
Risikos — wird vor allem auf Typ I und zufällig rechts-zensierte Daten einge- 
gangen, aber auch links-abgeschnittenen Daten werden behandelt. Das Pro- 
blem des (bedingt) (un)abhängigen zufälligen Zensierungsmechanismus wird 
ebenfalls diskutiert. Links-zensierte und rechts-abgeschnittene Daten und ihre 
Modellierung sind nicht Thema dieser Arbeit. 


Ausführlich wird das Thema “Zensieren und Abschneiden” — mit illustrativen 
Beispielen aus der Medizin - beispielsweise in Andersen et al. (1993) und Klein 
und Moeschberger (1997) behandelt. 
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Kapitel 4 


Nicht-parametrische Verfahren 


Nicht-parametrische Verfahren zur Schätzung der Überlebensfunktion dienen 
der vorbereitenden Analyse der Daten. Sie geben einen Einblick in den Pro- 
zessverlauf, ermöglichen Subgruppenvergleiche, die erste Aufschlüsse über die 
Wichtigkeit bestimmter Variablen zulassen. Daneben eignen sie sich zur gra- 
phischen Überprüfung der getroffenen Verteilungsannahmen für die Zeitdauer 
T; siehe Abschnitt 6.5. 


Dieses Kapitel gibt einen kurzen Überblick über die Kaplan-Meier-, Nelson- 
Aalen- und Sterbetafel-Methode unter Berücksichtigung von (unabhängigen) 
rechts-zensierten Daten. Im folgenden wird davon ausgegangen, dass es sich 
bei den Untersuchungseinheiten um Individuen handelt. 


4.1 Kaplan-Meier- und Nelson-Aalen-Methode 


Das am häufigsten verwendete Verfahren zur nicht-parametrischen Schätzung 
der Uberlebensfunktion S(t) ist die Kaplan-Meier-Methode; siehe Kaplan und 
Meier (1958). Enthält der Datensatz keine zensierten Fälle, dann entspricht 
der Kaplan-Meier-Schätzer zum Zeitpunkt t, $(t), dem Stichprobenanteil der 
Beobachtungen mit Ereigniszeiten größer als t, d.h S(t) = 1— F(t), wobei F(t) 
die empirische Verteilungsfunktion ist. 


Zur Konstruktion des Kaplan-Meier-Schätzers unter Berücksichtigung von (un- 
abhängigen) rechts-zensierten Daten nehmen wir an, dass es k < n verschiede- 
ne, geordnete Ereigniszeiten t(1) < tia) < ... < tx) gibt, und d; die Anzahl der 
Ereignisse zum Zeitpunkt t) ist. Unmittelbar vor jedem Zeitpunkt t) sind n; 
Individuen noch dem Risiko ausgesetzt, dass das Ereignis zum Zeitpunkt tq) 
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eintritt. Das sind also jene Fälle, die bis unmittelbar vor tų) weder ein Ereignis 
erlebt haben noch zensiert worden sind. Diese Individuen werden auch als Ri- 
sikomenge zum Zeitpunkt t), R(t), bezeichnet. Falls es Fälle gibt, die genau 
zum Zeitpunkt tq) zensiert werden, zählt man sie noch zur Risikomenge R(t.;)) 
dazu. Der Kaplan-Meier-Schätzer wird für Zeiten bis zur letzten beobachteten 
Ereignis- oder Zensierungszeit tmaz definiert als 


S(t) _ 1 für t < ta) 
~ | Mh se (1-#) fiir tay <t < tma 


Gilt tmar = tk), die maximale beobachtete Zeit somit eine Ereigniszeit ist, 
dann ist S(t) = 0 für t > tmar- Gibt es jedoch Zensierungszeiten, die größer als 
die maximale Ereigniszeit sind, dann ist der Kaplan-Meier-Schätzer für Zeiten 
größer als die letzte beobachtete Zensierungszeit (t > tmar) nicht definiert. Zur 
Schätzung von S(t) in diesem Bereich finden sich in der Literatur verschiedene 
nicht-parametrische Ansätze; siehe Klein und Moeschberger (1997) für einen 
kurzen Überblick. Der Ausdruck = ist ein Schätzer für die bedingte Wahr- 
scheinlichkeit, dass für ein Individuum, das den Zeitpunkt t;_ı) erlebt hat, 
das Ereignis zum Zeitpunkt tų) eintrifft. 


(4.1) 


Der Kaplan-Meier-Schätzer ist eine Treppenfunktion mit Sprungstellen an den 
beobachteten Ereigniszeiten. Aus (4.1) ist zu erkennen, dass die Gestalt des 
Kaplan-Meier-Schätzers S(t) nicht nur von den beobachteten Ereigniszeiten 
sondern auch von den Zensierungszeiten abhängt. 


Eine Schätzung der Varianz von S(t) erhält man beispielsweise mit Hilfe der 
Formel von Greenwood (1926): 


Verso) = $e)? 2 —— 


tay St nj (ni ~ d;) 
Das p-te Perzentil der Dauer bis zum Ereignis wird geschätzt mit 
= min{t : (t) < (p/100)}, 


und ein Schätzer für die erwartete Dauer bis zum Ereignis ist 
oo A 
a(t) = [ S(t) dt. 


Dieser Schätzer ist nur geeignet, wenn die letzte Beobachtung nicht zensiert 
ist, da sonst der Kaplan-Meier-Schätzer für Zeiten größer als die maximale 
beobachtete Zensierungszeit tmar nicht definiert ist. Ist die letzte Beobachtung 
zensiert, wird die erwartete Dauer bis zum Ereignis mit 


it”) = f ' S(t)dt 
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geschätzt, wobei für t* meist die maximale beobachtete Ereigniszeit oder die 
maximale Zensierungszeit eingesetzt wird. Im ersten Fall erhält man (un- 
abhängig davon, ob die letzte Beobachtung zensiert ist oder nicht) 


k 
Alten) = X Sen) — te-1)- 


i=1 


und im zweiten Fall 


a 


Ältmaz) = Alt) + (1 = Omax )S'(t(k))(tmaz E try) 


wobei tmaz die letzte Beobachtung und maz der Zensierungsstatus dieser Be- 
obachtung ist: 


5 = 1 falls tmar die maximale Ereigniszeit ist (= t(,)) 
maz 7 10 falls tmaz rechts-zensiert ist. 


Beide Schätzer sind nach unten verzerrt. Aus diesen Gründen wird in prak- 
tischen Analysen der Median als Schätzer der erwarteten Dauer bis zum be- 
trachteten Ereignis bevorzugt. 


Hosmer und Lemeshow (1999) sowie Klein und Moeschberger (1997) erläutern 
detailliert, wie mit Hilfe des Kaplan-Meier-Schätzers punktweise Konfidenz- 
intervalle und Konfidenzbänder für die Überlebensfunktion sowie Punkt- und 
Intervallschätzer für den Erwartungswert und die Quantile der betrachteten 
Zeitdauer (bis zum Ereignis) berechnet werden können. Klein und Moeschber- 
ger (1997) gehen auch auf die Konstruktion des Kaplan-Meier-Schätzers im 
Falle von links-abgeschnittenen Daten ein. 


Der Kaplan-Meier-Schätzer S(t) kann auch zur Schätzung der kumulativen 
Hazardfunktion H(t) verwendet werden: 


A(t) = - In[$(t)] 


Mit Hilfe der Theorie der Zählprozesse haben Nelson (1972) und Aalen (1978) 
einen alternativen Schätzer für die kumulative Hazardfunktion entwickelt, der 
bis zur maximalen beobachteten Zeit tmar definiert wird als 


0 für t < ta) 
H(t) = Erps für tay <t < tmas 


und sich auch als erste Näherung aus dem Kaplan-Meier-Schätzer ergibt. Somit 
erhält man als alternativen Schätzer für die Uberlebensfunktion 


S(t) = exp- Hd) 
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Im Abschnitt 5.3 wird gezeigt, dass die kumulative Hazardrate und damit 
sowohl der Kaplan-Meier- als auch der Nelson-Aalen-Schätzer bei der graphi- 
schen Überprüfung der Verteilungsannahmen für die Dauer bis zum Ereignis 
von Bedeutung sind. 


Details zur Herleitung des Kaplan-Meier-Schätzers und des Nelson-Aalen-Schat- 
zers mit Hilfe der Theorie der Zählprozesse und Martingale sowie zu ihren 
statistischen Eigenschaften, etwa dass die beiden Schätzer konsistent, asym- 
ptotisch äquivalent und normalverteilt sind, sind in Andersen et al. (1993) 
nachzulesen. 


4.2 Sterbetafel-Methode 


Falls die Zahl der Beobachtungen groß ist, und es viele verschiedene Ereigniszei- 
ten gibt, wird die tabellarische oder graphische Darstellung der Ergebnisse der 
Kaplan-Meier-Schätzung unübersichtlich, da für jeden Ereigniszeitpunkt t) 
der Schätzer 5 (t«)) ermittelt wird. In diesem Fall ist die Sterbetafel-Methode 
das geeignetere Verfahren, da es die Ereigniszeiten in Intervallen der gewünsch- 
ten Länge gruppiert. 


Für ein Intervall der Form [a;, a;+1) ist n; die Anzahl der Individuen, die zum 
Zeitpunkt a; noch dem Risiko eines Ereignisses ausgesetzt ist, das sind jene 
Fälle, die bis unmittelbar vor a; kein Ereignis erlebt haben und auch nicht 
zensiert worden sind. Werden diese Individuen über das Intervall verfolgt, er- 
leben d; Individuen das betrachtete Ereignis, und c; Fälle werden zensiert. 
Die zensierten Fälle sind daher nicht während der gesamten Zeit des Intervalls 
dem Risiko des Ereignisses ausgesetzt. Für die Berechnung der Risikomenge 
R(t),t € [a;,@;+1), wird daher (zumeist) angenommen, dass die Zensierungszei- 
ten gleichverteilt über das Intervall sind und die durchschnittliche Risikomenge 
im Intervall somit n; — c;/2 ist. Die bedingte Wahrscheinlichkeit, das i-te In- 
tervall zu überleben, erhält man zu 


d; 
1 — —— = 1-4, 
ni — (ci/2) = 
wobei q; die bedingte Wahrscheinlichkeit für ein Ereignis im i-ten Intervall ist, 
unter der Voraussetzung, dass das Zeitintervall erreicht wurde. Der Schätzer 
für die Überlebensfunktion ist dann 


un J1 t< a 
S(t) = i Mil- g) a < t< aip, i> O0 
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Die Kaplan-Meier-Methode ist also ein Spezialfall der Sterbetafel-Methode, bei 
der die Ereigniszeitpunkte als Intervallgrenzen gewählt werden. 


4.3 Vergleich von Überlebensfunktionen 


Ein weiteres Ziel von ersten deskriptiven Analysen ist der Vergleich der Über- 
lebensfunktionen von Subgruppen, die anhand der Ausprägungen einer oder 
mehrerer (meist kategorieller) Variablen gebildet worden sind; kontinuierlich 
skalierte Merkmale müssen gruppiert werden. Bei einer zu großen Anzahl von 
Untergruppen verliert die Analyse an Übersichtlichkeit, und die Macht der un- 
ten angeführten Tests nimmt wegen zu geringer Fallzahlen in den einzelnen 
Gruppen immer mehr ab. Daher beschränkt sich der in diesem Kapitel be- 
schriebene Vergleich von Überlebensfunktionen auf einige wenige Subgruppen. 


Einen ersten Vergleich von Subgruppen ermöglicht die graphische Darstellung 
der Überlebensfunktionen. Zur formalen Überprüfung der beobachteten Un- 
terschiede sind nicht-parametrische Tests entwickelt worden, die hier für den 
Vergleich von zwei Gruppen erklärt werden. 


Für Individuen aus der Untergruppe 0 bezeichnen wir mit 


. die Anzahl jener Fälle, die unmittelbar vor t(),1 < i < k, noch dem 
Risiko eines Ereignisses ausgesetzt sind, und mit 


do; ... die Anzahl der Ereignisse zum Zeitpunkt t(j). 


Für die Untergruppe 1 werden die gleichen Größen mit nı; bzw. dı; bezeichnet. 
Dann ist — unter der Nullhypothese, dass die Uberlebensfunktionen der beiden 
Gruppen gleich sind - ein Schätzer für den erwarteten Wert von dı; gegeben 
mit d 
pe 

nj 
wobei n; = ng + nı und d; = do; + du. Einen Varianzschätzer fiir dj; erhält 
man auf Basis der hypergeometrischen Verteilung mit 


a nyingidi(n; — di) 
i n?(n; — 1) 


Die allgemeine Formulierung der Teststatistik ist 


pa wild — å) 


Q = 
DE, wi 
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wobei die wis Gewichte darstellen. Unter der Nullhypothese, dass die beiden 
Überlebensfunktionen gleich sind, ist die Teststatistik Q (bei unabhängigem 
Zensierungsmuster in den beiden Untergruppen und großer Anzahl von Ereig- 
nissen) stets x?(1) verteilt. 


Zwei wichtige Spezialfälle sind (i) für w; = n, der verallgemeinerte Wilcoxon 
Test und (ii) für w; = 1 der Log-rank-Test bzw. Mantel-Cox-Test. 


Ausführlich wird der Vergleich von Überlebensfunktionen beispielsweise in 
Hosmer und Lemeshow (1999) oder Le (1997) behandelt. In beiden Arbei- 
ten wird auch die Erweiterung der Teststatistik Q auf den Vergleich von mehr 
als zwei Gruppen diskutiert. 
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Kapitel 5 


Parametrische 
Regressionsmodelle 


Neben Ereignis- bzw. Zensierungszeiten wird in der Regel für jedes Individuum 
eine Reihe von weiteren Variablen erhoben, und ein wichtiges Ziel der stati- 
stischen Analyse besteht in der quantitativen Ermittlung des Effektes dieser 
Variablen auf die Zeitdauer bis zum Eintreffen des Ereignisses. Die Merkmale 
können quantitativ oder qualitativ sein. Zur Beurteilung des Effektes von po- 
tentiellen Einflussgrößen werden Modelle verwendet, die analog zu linearen Re- 
gressionsmodellen die (eventuell transformierten) Kovariablen z;,7 = 1,...,p, 
mit einem Parameter ĝ; gewichten und mit z,f; in das Modell aufnehmen; 
kategorielle Variablen werden über eine (0, 1)-Kodierung der einzelnen Kate- 
gorien als Dummy Variablen in das Modell aufgenommen. 


Neben fixen (zeitkonstanten) erklärenden Variablen können auch - im Unter- 
schied zu linearen Regressionsmodellen — zeitveränderliche Variablen in das 
Modell integriert werden. Bei der Analyse von Studiendauern ist etwa zu ver- 
muten, dass die Berufstätigkeit einen Einfluss auf die Studiendauer hat. Die 
Berufsintensität bzw. der Berufsstatus (nicht beschäftigt, teilweise beschäftigt, 
voll beschäftigt) kann sich während der Studienzeit ändern und muss daher rea- 
litätsgerecht als zeitveränderliche Variable in das Modell aufgenommen werden. 


In diesem Kapitel wird die Analyse der Effekte potentieller Einflussgrößen mit 
Hilfe von parametrischen Regressionsmodellen erläutert. Das nächste Kapitel 
behandelt semiparametrische Regressionsmodelle; es werden die Unterschie- 
de zu parametrischen Regressionsmodellen herausgearbeitet und insbesondere 
wird auf die Einbeziehung von zeitveränderlichen Variablen eingegangen. 
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5.1 Typische Verteilungsannahmen und Ein- 
beziehung von Kovariablen 


Log-lineare Modelle 


Eine häufig verwendete Klasse von Modellen zur Analyse der Effekte poten- 
tieller Einflussfaktoren auf die Dauer bis zum Eintreffen des interessierenden 
Ereignisses sind Regressionsmodelle, die einen linearen Zusammenhang zwi- 
schen den Kovariablen und der logarithmierten Dauer bis zum Ereignis anneh- 
men. Diese log-linearen Modelle, die im englischen Sprachraum als accelerated 
failure time models bezeichnet werden, sind wie folgt definiert: 


nT = o+ ztbı +... + Uphp + o€ = Po +x B+ ce 


T = exp(6o+xG +e) (5.1) 
mit 

T ... zufällige Episodendauer 

X = (£1, Zp) ... Werte von p (zeitunabhängigen) Kovariablen 
€ ... zufälliger Störterm mit einer von x unabhängigen 
Verteilung 

o ... Skalenparameter 

Bo ... Interzept 
P = (bi, bp) ... Regressionskoeffizienten 


Zeitabhängige Kovariablen und ihre Einbeziehung in semiparametrische und 
parametrische Regressionsmodelle werden im Abschnitt 6.3 behandelt. 


Zur Interpretation des Modells (5.1) betrachten wir das (Basis-)Modell, in dem 
alle Kovariablen den Wert Null annehmen: 


To = exp(Po + oe) 


Die Wahrscheinlichkeitsverteilung und Überlebensfunktion von Tp sind durch 
die Wahrscheinlichkeitsfunktion von e bestimmt. Hat die Zufallsgröße To die 
(Basis-) Überlebensfunktion So(t), dann erhalten wir 


S(t|x) P(T > t|x) = P(InT > Int|x) 
P(ßo + oe > Int — x’A|x) 
P(exp(ßo + oe) > texp(—x’B)|x) 


Solt exp(—x')]. (5.2) 
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Aus dieser Beziehung folgt 


to(p) = exp(-z’B)tx(p). (5.3) 


Das p-Quantil t,(p) der betrachteten Zeitdauer für Individuen mit Kovaria- 
blenvektor x ist das exp(x’ß)-fache des p-Quantils to(p) der Dauer für Indi- 
viduen mit Kovariablenwerten gleich Null. Zur Interpretation der geschätzten 
Regressionskoeffizienten können die geschätzten Mediane der zu analysieren- 
den Zeitdauer von Individuen mit unterschiedlichen Ausprägungen der in- 
teressierenden Kovariablen (unter Konstanthaltung der anderen einbezogenen 
Merkmale) verglichen werden. Der Faktor exp(—x’ß) wird Beschleunigungs- 
faktor (engl. acceleration factor) genannt. Ist dieser Faktor kleiner/größer als 
1, so wirken die Kovariablen für ein Individuum (multiplikativ) verlangsa- 
mend/beschleunigend auf die Zeitdauer. 


Besonders deutlich wird diese Eigenschaft bei Betrachtung einer binären Va- 
riablen. Zur Illustration nehmen wir an, dass einige Studierende zu Beginn 
ihres Studiums zufällig einer Gruppe zugeordnet werden. An dieser Gruppe 
sollen in den beiden ersten Semestern einige neue Maßnahmen, die mit dem 
Ziel der Studienzeitverkürzung eingeführt worden sind, getestet werden. Der 
Testgruppe wird z = 1 und den anderen Studienanfängern des Semesters, der 
Kontrollgruppe, z = 0 zugeordnet, dann gilt im Falle eines log-linearen Modells 


to(0.5) = exp(-P)tı (0.5). 


Der Median der Studiendauer der Kontrollgruppe ist damit das exp(—ß)-fache 
des Medians der Testgruppe. Ist der geschätzte Regressionskoeffizient 2 kleiner 
als 0, also exp(—@) > 1, dann haben die Maßnahmen eine beschleunigende 
Wirkung auf die Studiendauer und sind somit als Erfolg zu bezeichnen. 


Für die Hazardfunktion erhält man die Beziehung 
h(t|x) = exp(-x’B)holt exp(—x’B)], (5.4) 


wobei ho die Basis-Hazardfunktion ist (für Kovariablenwerte gleich Null), und 
für die Dichtefunktion 


f (tlx) = exp(-x’B) foltexp(-x’B)]. 


Die Verteilung von e bestimmt die entsprechende Verteilung von T, und die Re- 
gressionsmodelle werden nach der Verteilung von T benannt. Das Exponential-, 
das Weibull-, das log-logistische-, das log-normale- und das (verallgemeinerte) 
Gamma-Modell gehören zu dieser Klasse von Regressionsmodellen. 
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Beim Exponential-Modell wird vom log-linearen Regressionsansatz mit o = 
1 ausgegangen: 
nT=Bb+xß+e 


Der zufällige Störterm e folgt der Standard-Extremwert- oder Gumbel-Verteilung: 
f(e) = exple — exp(e)], —-00 <€< 00 
T besitzt dann bei gegebenem Kovariablenvektor x die Dichtefunktion 
f (t|x) = exp(—o — x’B) exp[-texp(-Po — x’B)], 
und die Hazardfunktion 
h(t|x) = exp(— — x P). 


Im Exponential-Modell ist somit das Risiko fiir ein Ereignis zum Zeitpunkt t 
- unter der Voraussetzung, dass das Ereignis bis dahin noch nicht eingetroffen 
ist - unabhängig von t, der Zeit, die das Individuum bereits in der Studie ist. 


Im folgenden setzen wir der Einfachheit halber exp(—{p — x’ß) = A(x). Für 
die erwartete Dauer einer Episode und die erwartete Restdauer zum Zeitpunkt 
tı erhält man bei gegebenem Kovariablenvektor x 


E(T|x) = E(T -uT > t;x) = XG) 

Die zu erwartende Restdauer ist somit fiir ein Individuum zu jedem Zeit- 
punkt gleich. Es treten keine Alterungseffekte auf. Trotz dieser restriktiven 
Eigenschaft, dass der Prozessverlauf von der Zeit unabhängig ist, wurde das 
Exponential-Modell in der Vergangenheit vor allem wegen seiner mathemati- 
schen Einfachheit häufig verwendet. In praktischen Anwendungen eignet sich 
das realitätsgerechtere stückweise konstante Hazards-Modell, das im Abschnitt 
5.4 diskutiert wird, weit mehr. Abbildung 5.1 zeigt die Dichte-, Überlebens- 
und Hazardfunktion der Exponentialverteilung für A = 0.2. 


Beim Weibull-Modell folgt € der Standard-Extremwert-Verteilung und o # 
1. Ist o > 1, dann ist die Hazardfunktion monoton fallend mit der Zeit, für 
0.5 < o < 1 steigt sie mit abnehmender Rate, für ø = 0.5 mit konstanter 
Rate und für 0 < o < 0.5 steigt sie mit wachsender Rate. Abbildung 5.2 zeigt 
Hazardfunktionen der Weibull-Verteilung für verschiedene o-Werte. 


Die Hazardfunktion ist (mit ô = 1/ø) 
h(t|x) = A(x) ft- 
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Abbildung 5.1: Dichte- (f), Überlebens- (S) und Hazardfunktion (h) des 
Exponential-Modells für A = 0.2 


Abbildung 5.2: Hazardraten des Weibull-Modells für A = 0.2 und ø = 0.25(hı), 
C= 0.5(h2), CG = 0.8(h3), o = 1.5(h4) 
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die Überlebensfunktion 
S(t|x) = exp(-[tA(x)]°), 


und f(t|x) = h(t|x)S(¢|x). 


Beim log-normalen Modell folgt e der Standard-Normalverteilung. Das log- 
normale Modell hat keine monotone Hazardrate; die Hazardrate ist 0 für t = 0, 
steigt bis zu einem Maximalwert und konvergiert dann gegen 0 für t — oo (sie- 
he Abbildung 5.3). Die Hazardfunktion kann nicht in geschlossener Form ange- 
geben werden, da sie die Verteilungsfunktion einer standard-normalverteilten 
Variablen enthalt. Dichte- und Uberlebensfunktion sind 


fx) = I; * exp {- [log(¢) — u(x)]?/(207) } 
1-® (‘ce He) 


wobei ® die Verteilungsfunktion einer standard-normalverteilten Variablen ist 
und p(x) = —In[A(x)] = o + x’ß gilt. Abbildung 5.3 zeigt Hazardfunktionen 
der log-normalen Verteilung für verschiedene o-Werte. 


S(t|x) 


Beim log-logistischen Modell folgt e der standardisierten logistischen Ver- 
teilung mit Dichtefunktion 
f(e) = 


expe 


FRE —OO < € < 00. 
(1 + expe)? — 


Für die Hazardfunktion erhält man (mit ô = 1/o) 


_ A(x)d(A(x)t)°7} 
CaL 


und für die Überlebensfunktion 

SOENE SEHEN 

1+ (A(x)t)> 

Die Hazardfunktion des log-logistischen Modells ist fiir o > 1 monoton fal- 
lend mit h(t) — oo für t — 0 bzw. h(0) = à fiir ø = 1, und A(t) — 0 für 
t — oo. Für ø < 1 verhält sich die Hazardfunktion ähnlich dem log-normalen 


Modell. Abbildung 5.4 zeigt Hazardfunktionen der log-logistischen Verteilung 
fiir verschiedene o-Werte. 


S(t|x) = 


Das Exponential-, das Weibull-, das log-normale- und das standardisierte Gam- 
ma-Modell (zwei Parameter) sind Spezialfälle des verallgemeinerten Gamma- 
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Abbildung 5.3: Hazardraten des log-normalen Modells für u = 0 und o = 
0.5(hı), o = 1(h2), o = 1.5(h3) 


Abbildung 5.4: Hazardraten des log-logistischen Modells für A = 0.2 und o = 
0.5(hı), o= 1(h2), do = 2(h3) 
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Modells (drei Parameter). Daher wird dieses Modell häufig zur Modellsuche 
verwendet; vgl. Abschnitt 5.3. Das verallgemeinerte Gamma-Modell ermöglicht 
die Modellierung vieler Formen der Hazardfunktion, die mit den oben an- 
geführten Modellen nicht abgebildet werden können - wie beispielsweise einen 
U-förmigen oder badewannenförmigen Verlauf, der das Abbruchrisiko von Stu- 
dierenden oder das Sterberisiko von Menschen gut beschreibt. Der Grund, 
warum das verallgemeinerte Gamma-Modell meist nicht als endgültiges Modell 
verwendet wird, liegt einerseits in der komplizierten Formel der Hazardfunkti- 
on, bei der man im Gegensatz zu den einfacheren Modellen aus den geschätzten 
Parametern nicht sofort auf die Gestalt der Hazardfunktion schließen kann, und 
in der Rechenintensität der Maximum-Likelihood-Schätzung. 


Beim verallgemeinerten Gamma-Modell folgt e der Log-Gamma-Vertei- 
lung. Die Dichtefunktion von T kann nach entsprechender Reparametrisie- 
rung des standardmäßig verwendeten verallgemeinerten Gamma-Modells an- 
geschrieben werden als: 


(tls) = on = {vere oe wie | 


wobei T(x) die Gammafunktion und der Formparameter « eine reelle Zahl 
größer Null ist. Lawless (1980) begründet die Reparametrisierung: “.. studied 
the model in a different but equivalent form, which makes the properties and 
potential difficulties with estimation in the model much more transparent.” In 
SAS und TDA wird ebenfalls diese Parametrisierung verwendet; siehe auch 
Rohwer und Pötter (1998) und SAS/STAT User’ Guide, The LIFEREG Pro- 
cedure. Die Überlebensfunktion ist 


q(t) ur 
S(t|x) =1—- > To exp(—u)du, 


wobei g(t) = xexp{(log(t) — u(x))/oyr} ist. Das Integral wird als unvoll- 


ständige Gammafunktion bezeichnet. Als Spezialfälle des verallgemeinerten 
Gamma-Modells erhält man mit 


e «=1undo=1 das Exponential-Modell; 
e k = 1 das Weibull-Modell; 
e k — œ das log-normale Modell; 


e o,/k = 1 das standardisierte Gamma-Modell. 
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Abbildung 5.5: Hazardraten des verallgemeinerten Gamma-Modells für u = 
0,0 = 1 und k = 0.5(hı), K = 0.9(ha), k = 1.5(h3), k = 10(h4) 


Mit Hilfe dieser Beziehungen kann das verallgemeinerte Gamma-Modell ver- 
wendet werden, um die Güte der Anpassung an die Daten der anderen Modelle 
zu überprüfen; siehe Abschnitt 5.3. Abbildung 5.5 zeigt Hazardfunktionen der 
verallgemeinerten Gamma-Verteilung für verschiedene x-Werte. 


Die hier beschriebenen log-linearen Ereignisdatenmodelle werden beispielswei- 
se in Allison (1998), Klein und Moeschberger (1997) sowie in Rohwer und 
Pötter (1998) behandelt. In der Literatur (und bei der Verwendung von Com- 
puterprogrammen) ist auf die unterschiedlichen Parametrisierungen der be- 
sprochenen Modelle zu achten; siehe etwa Collett (1994). Die vorliegende Ar- 
beit hält sich an die Parametrisierungen der Software SAS, wo das Interzept 
Bo, die Regressionskoeffizienten Ø, der Skalenparameter o und im verallgemei- 
nerten Gamma-Modell der Parameter 6 geschätzt wird, wobei 6 anstelle von 
k = 6”? verwendet wird. 


Proportionale Hazards-Modelle 


Neben der Klasse der log-linearen Modelle ist die Klasse der von Cox (1972) 
vorgeschlagenen proportionalen Hazards-Modelle (PH-Modelle) in der Ereig- 
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Abbildung 5.6: Hazardraten des Gompertz-Modells für exp(%) = 1 und y = 
0.2(hı), y= 0.05(ha), y = —0.5(h3) 


nisdatenanalyse von Bedeutung. Für diese Modelle gilt: 
h(t|x) = ho(t)g(x; 0), (5.5) 


wobei meist g(x;0) = exp(x’@) gewählt wird. Die Kovariablen wirken mul- 
tiplikativ auf die Basis-Hazardfunktion ho(t). Nach dieser Definition zählen 
das Exponential- und das Weibull-Modell auch zu den PH-Modellen. Für das 
Weibull-Modell gilt beispielsweise: 


ho(t) exp(x’0) = 5X°t°"! exp(x’0) 
= St [exp(- Bo - 29)’, 


wobei A = exp(—{) und 9 = —0/ô. 


Ein weiterer wichtiger Vertreter der PH-Modelle ist das Gompertz-Modell. 
Die Hazardfunktion ist mit 


h(t|x) 


h(t|x) = exp(@ + ©’0) exp(Yt) 


gegeben. Abbildung 5.6 zeigt Hazardfunktionen der Gompertz-Verteilung für 
verschiedene ‘y- Werte. 
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Abbildung 5.7: Proportionale Hazardraten der Weibull-Verteilung 


Für alle Modelle der PH-Klasse gilt die Eigenschaft der “proportionalen Ha- 
zards”, die besagt, dass die Hazardrate von einem Individuum mit Kovaria- 
blenvektor x; ein Vielfaches der Rate eines anderen Individuums (mit x;) ist; 
das Vielfache ist eine Funktion von (x; — x;). Bei den log-linearen Modellen 
gilt diese Eigenschaft nicht. Ausführlich wird das (semiparametrische) propor- 
tionale Hazards-Modell und seine Eigenschaften im Kapitel 6 behandelt. Ab- 
bildung 5.7 zeigt die proportionalen Hazardfunktionen der Weibull-Verteilung 
für verschiedene Werte einer Kovariablen. 


Die allgemeinen Darstellungen (5.4) und (5.5) beider Klassen enthalten den 
Term ho(t), die beliebige Basis-Hazardfunktion. Wird ho(t) spezifiziert, dann 
erhält man die oben besprochenen parametrischen Regressionsmodelle. Wird 
ho(t) nicht näher spezifiziert, spricht man von einem semiparametrischen An- 
satz. Für proportionale Hazards-Modelle sind geeignete Methoden zur Schät- 
zung der unbekannten Regressionskoeffizienten entwickelt worden, die ohne 
nähere Spezifikation von ho(t) auskommen. Diese Methoden werden im Kapi- 
tel 6 behandelt. 


Neben den log-linearen- und proportionalen (multiplikativen) Hazardraten- 
Modellen können auch additive Hazardraten-Modelle der Form 


h(tlx) = ho(t) + O 
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zur Modellierung der Kovariableneffekte verwendet werden. Additive Hazard- 
raten-Modelle werden in der vorliegenden Arbeit nicht behandelt; einen Über- 
blick geben beispielsweise Hosmer und Lemeshow (1999) sowie Klein und 
Moeschberger (1997). 


5.2 Schätzen der Parameter und Hypothesen- 
tests 


Maximum-Likelihood-Schätzung 


Die unbekannten Regressionskoeffizienten werden in dieser Arbeit in Folge 
für alle Regressionsmodelle mit Ø bezeichnet. Zur Schätzung der Regressi- 
onskoeffizienten der im vorherigen Abschnitt diskutierten parametrischen Re- 
gressionsmodelle wird im allgemeinen die Maximum-Likelihood-Methode (ML- 
Methode) herangezogen; auch in der gängigen Statistik-Software ist (ausschließ- 
lich) diese Methode zur Schätzung der Parameter implementiert. Kleinste- 
Quadratsummen-Schätzer werden im Rahmen der Ereignisdatenanalyse kaum 
behandelt. In dieser Arbeit wird daher nur auf die ML-Schätzmethode einge- 
gangen. 


Die ML-Methode ist deshalb so populär, da die Schätzer ein gutes asympto- 
tisches Verhalten aufweisen. Unter gewissen Regularitätsbedingungen (siehe 
etwa Andersen et al. (1993) für die mathematischen Details) sind die ML- 
Schätzer der Parameter konsistent, asymptotisch effizient und asymptotisch 
normalverteilt. Weiters ermöglicht die ML-Methode die Einbeziehung (rechts- 
)zensierter Daten bei der Schätzung der Parameter. 


Zur Konstruktion der Likelihoodfunktion unter Einbeziehung von (bedingt) 
unabhängig rechts-zensierten Daten (siehe Abschnitt 3.2) wird der Zensie- 
rungsindikator 6; wie folgt definiert: 


1 falls t; eine Ereigniszeit ist 
6; = ne 
0 falls t; eine Zensierungszeit ist 


Unter der Annahme, dass die Zensierungszeiten bedingt unabhängig von den 
Ereigniszeiten sind, gilt für nicht-zensierte Daten 


P(T =t,6 = 11x) = f(tlx)[1 - G(x) 
und für zensierte Fälle 
P(T = t,6 = 0|x) = g(t|x)[1 - F(¢|x)] = g(t|x)S(t|x), 
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wobei f(t|x) und F(t|x) Wahrscheinlichkeitsdichte und Verteilungsfunktion 
für die Zeitdauer bis zum Ereignis sind, sowie g(t|x) und G(t|x) Wahrschein- 
lichkeitsdichte und Verteilungsfunktion der Dauer bis zur Zensierung sind - 
bei gegebenem Kovariablenvektor x. 


Somit erhalten wir folgende Likelihoodfunktion 


LB) = [AEN - Go)“ Lalele” 
= TUES eA Hot- pa}, 6.6) 


wobei f(t;|x;)[1 — G(t,|x;)] der Beitrag des Individuums i zur Likelihoodfunk- 
tion ist, falls die Beobachtung nicht zensiert ist; der Beitrag einer zensierten 
Beobachtung zur Likelihoodfunktion ist g(t;|x;,)[S(t;|x;)]. 


Unter der Annahme, dass die Verteilung der Zensierungszeiten nicht von den 
für f; und S; relevanten Parametern abhängt, so kann der zweite Faktor in 
(5.6) zu einem (hinsichtlich 8) konstanten Term zusammengefasst werden und 
der ML-Schätzer durch Maximieren der linken Seite von (5.6), also 


28) = [Ðe e 
= TT Altilx,)® ex = hie 
I (£:|x:) exp ( Í (ubsi)du) (5.7) 


erhalten werden. In diesem Fall spricht man von einem nicht-informativen Zen- 
sierungsmechanismus. Typ I und II rechts-zensierte Fälle sind nicht-informative 
zensierte Daten. Kalbfleisch und Prentice (1980) meinen zu dieser Bedingung: 
” Realistic examples of informative, but independent, censoring schemes are 
hard to construct”. Ausführlich werden (bedingt) unabhängige Zensierungs- 
mechanismen etwa von Kalbfleisch und Prentice (1980) und Lagakos (1979) 
diskutiert. 


Für die ML-Schätzung wird dann meist, da rechentechnisch einfacher, die Log- 
Likelihoodfunktion nach den unbekannten Parametern maximiert: 


I(B) = In L(A) = > In h(t) — | Alulms)du) 


Die Maximierung geschieht in der Regel mit Hilfe eines iterativen Verfahrens, 
etwa des Newton-Verfahrens oder eines modifizierten Newton-Verfahrens (wie 
in SAS; siehe Allison (1998)). Die Herleitung der Log-Likelihoodfunktion und 
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der ML-Gleichungen für das Exponential-Regressionsmodell finden sich in zahl- 
reichen Monographien, zum Beispiel in Allison (1998). Für alle anderen im 
Abschnitt 5.1 diskutierten parametrischen Regressionsmodelle sind diese Her- 
leitungen zum Beispiel in Rohwer und Pötter (1998) zu finden. 


Manchmal tritt bei den iterativen Verfahren keine Konvergenz auf, insbeson- 
dere für 


e sehr kleine Stichprobengrößen, 
e eine große Anzahl von Parametern oder 


e eine große Anzahl zensierter Fälle. 


Einen Überblick über die allgemeine Theorie der ML-Methode und ihre Ver- 
wendung im Zusammenhang mit Ereignisdatenmodellen geben etwa Blossfeld 
et al. (1986) und Kalbfleisch und Prentice (1980). 


Tests für Regressionskoeffizienten 


Analog zur multiplen linearen Regression können Hypothesen über die Pa- 
rameter formuliert werden. Im Allgemeinen wird überprüft, ob die in das 
Modell einbezogenen Variablen insgesamt einen Erklärungsbeitrag liefern; es 
wird dann die Nullhypothese getestet, dass alle Parameter gleich Null sind. 
Zusätzlich kann für jede Variable einzeln getestet werden, ob ihr Koeffizient 
p; unter Berücksichtigung der anderen im Modell inkludierten Variablen den 
Wert Null hat. Eine analoge Aufgabenstellung ist es, Konfidenzintervalle für 
die Parameterschätzer zu berechnen. 


Zum Testen von Hypothesen über die Parameter 61,- +, 8p werden standard- 
mäßig drei - asymptotisch äquivalente -— Tests eingesetzt: der Likelihood- 
Quotienten-, der Wald- und der Score-Test. 


Die - einfach zu berechnende - Likelihood-Quotienten-Teststatistik zum Te- 
sten der globalen Hypothese Ho : B = Bo, wobei B = (f1,---, Gp)’ die Para- 
meter im Modell sind und p ein reeller Vektor ist, erhält man mit 


G = 2[I(8) - (Bp), (5.8) 
wobei [(.) der Wert der logarithmierten Likelihoodfunktion ist. 
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Zur Durchführung der beiden anderen Tests benötigt man einen Schätzer der 
Kovarianzmatrix von 3 


ol 


-1 
Var(3) = | -—(8)}) =b) 

= (-) = 18)". 
wobei I(G) als beobachtete Informationsmatrix bezeichnet wird. Die Wald- 
Teststatistik erhält man mit 


W = (Ê — By)'1(8)(B — By), (5.9) 
und die Score-Teststatistik mit 


S= u(bo) [I(80)] u(Bo0), (5.10) 


wobei u(ß,) der Vektor der ersten partiellen Ableitungen der logarithmierten 
Likelihoodfunktion an der Stelle 9, ist. 


Alle drei Teststatistiken sind bei Gültigkeit der Nullhypothese asymptotisch 
x?(p) verteilt. In Anwendungsbeispielen liefern die drei Teststatistiken (5.8), 
(5.9) und (5.10) ähnliche numerische Werte und führen daher (meist) zu glei- 
chen Schlüssen. 


Als Spezialfall erhält man für die Hypothese, dass alle Parameterschätzer gleich 
Null sind (Ho : Ø = 0), die Likelihood-Quotienten-Teststatistik mit 


G = 2118) - 1(0)}. 


Die Tests können auch zum Überprüfen von Hypothesen über einen Teil der 
Parameter herangezogen werden; siehe Klein und Moeschberger (1997). Ein 
wichtiger Spezialfall ist die Überprüfung der Hypothese, dass eine Variable - 
unter Berücksichtigung der anderen in das Modell einbezogenen Variablen — 
keinen Effekt hat (Ho : 6; = 0). Hierfür bietet sich die (univariate) Wald- 
Teststatistik 


va 
Var(ß,;) 


an, die bei Gültigkeit von Hp asymptotisch standard-normalverteilt ist. Die 
Endpunkte eines 100(1 — a)%-Konfidenzintervalls für 6; erhält man mit 


ß; + 21-a/2V Var(ß,), 


wobei 21-.,2 das (1 — @/2)-Quantil der Standard-Normalverteilung ist. 
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Die Hypothese 6; = ß; auf Gleichheit von zwei Regressionskoeffizienten kann 
analog mit der Teststatistik 


Bs — ĝi 


yVar(ĝi — B;) 


W= 


überprüft werden. 


5.3 Überprüfung von Verteilungsannahmen 


Hypothesentests bei geschachtelten Modellen 


Im Abschnitt 5.1 wurden einige Verteilungsannahmen für die Dauer T bis 
zum Eintreffen des Ereignisses diskutiert. In konkreten Anwendungsfällen ist 
es wünschenswert, die Anpassungsgüte von unterschiedlichen Modellen an die 
Daten zu testen und untereinander zu vergleichen. Dieser Abschnitt behandelt 
Methoden, die dem Anwender die Entscheidung für (oder gegen) ein parame- 
trisches Modell erleichtern soll. 


Im vorherigen Abschnitt sind mit (5.8) die Likelihood-Quotienten-, mit (5.9) 
die Wald- und mit (5.10) die Score-Teststatistik definiert worden. Diese Test- 
statistiken werden zum Testen von Hypothesen über Parameterrestriktionen 
in einem implementierten Modell verwendet. Die durch die Parameterrestrik- 
tionen erhaltenen Modelle sind Spezialfälle des allgemeineren Modells (ge- 
schachtelte Modelle, engl. nested models). So ist etwa ein Regressionsmodell 
ohne Kovariablen ein Spezialfall des gleichen Modells, das diese Kovariablen 
berücksichtigt. Den Spezialfall erhält man durch die Parameterrestriktionen 
bı = b2 = +- = Pp = 0. Ebenso erhält man durch die Hypothese 8; = 0 einen 
Spezialfall des allgemeinen Modells, das auch die Kovariable x; berücksichtigt. 
Im Abschnitt 5.1 ist gezeigt worden, dass im verallgemeinerten Gamma-Modell 
das standardisierte Gamma-Modell, das Weibull-, das Exponential- und das 
log-normale Modell enthalten sind. Daher können die besprochenen Test-Statis- 
tiken für einen formalen Vergleich dieser Modelle mit dem verallgemeinerten 
Gamma-Modell verwendet und die Frage geklärt werden, ob das allgemeine- 
re Modell eine bessere Anpassung an die Daten als das eingeschränkte Modell 
hat. Wird etwa im verallgemeinerten Gamma-Modell die Hypothese Hp : k = 1 
verworfen, so beschreibt das verallgemeinerte Gamma-Modell die Daten besser 
als das Weibull-Modell. 


Das log-logistische Modell hingegen ist kein Spezialfall des verallgemeinerten 
Gamma-Modells. Eine Möglichkeit, parametrische Modelle, die nicht geschach- 
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telt sind, miteinander zu vergleichen, bietet das von Akaikie (1974) vorgeschla- 
gene Kriterium (engl. Akaikie information criterion) 


AIC=-2l+2(p+1+k), 


wobei | der Log-Likelihood-Wert, p die Anzahl der Kovariablen und k = 0 
für das Exponential-Modell, k = 1 für das Weibull-, log normale, Standard- 
Gamma-, log logistische Modell und k = 2 für das verallgemeinerte Gamma- 
Modell ist. Das Modell, das den kleinsten AIC-Wert hat, wird als Modell mit 
der besten Anpassung an die Daten gesehen. 


Bei der Interpretation der Teststatistiken muss darauf geachtet werden, dass 
das verallgemeinerte Gamma-Modell selbst nicht mehr mit einem allgemeine- 
ren Modell verglichen werden kann und daher die vergleichenden Aussagen von 
der Anpassungsgüte des verallgemeinerten Gamma-Modells abhängen. 


Graphische Verfahren 


Meist werden graphische Methoden verwendet, um die Modelle auf ihre Anpas- 
sungsgüte zu überprüfen. Diese graphischen Verfahren geben gute Hinweise, 
welche Modelle weniger oder besser geeignet zur Beschreibung der Daten sind; 
sie sind jedoch keine formale Überprüfung, ob ein bestimmtes parametrisches 
Modell das geeignete ist. 


Um die Anpassungsgüte von Modellen ohne Berücksichtigung von Kovariablen 
zu untersuchen, werden Transformationen der Überlebensfunktion gesucht, die 
linear in g(t) sind, wobei g(t) eine beliebige Funktion der Zeit t ist. Dazu wird 
die Überlebensfunktion erst mit einer nicht-parametrischen Methode wie der 
Kaplan-Meier-, Sterbetafel- oder Nelson-Aalen-Methode geschätzt (siehe Kapi- 
tel 4) und die transformierten Werte der geschätzten Überlebensfunktion gegen 
g(t) aufgetragen. Bei guter Anpassung an die Daten sollte die Graphik nicht 
viel von einer Geraden abweichen. Diese Methode soll nun für das Exponential-, 
das Weibull-, das log-normale und das log-logistische Modell erklärt werden. 


Im Exponential-Modell führt die Logarithmus-Transformation die Überlebens- 
funktion S(t) = exp(—At) in 


—In[S(t)] = At 


über; ein Plot von - In[$(t)] gegen t, wobei S(t) eine nicht-parametrische 
Schatzfunktion der Uberlebensfunktion ist, sollte daher von einer Geraden 
durch den Ursprung nicht sehr abweichen, falls die Annahme eines Exponential- 
Modells passend ist. 
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Im Weibull-Modell kann die Überlebensfunktion S(t) = exp(-(tA)?) mit 
In(In{[—S(t)]) = 6 In(A) + ôln(t) 


in eine lineare Funktion von In(¢) transformiert werden; ein Plot von In(In[-$(t)]) 
gegen In(t) müsste daher annähernd linear sein, falls die Annahme eines Weibull- 
Modells passend ist. 


Die Uberlebensfunktion S(t) = 1/(1 + (At)?) im log-logistischen Modell kann 
mit 


1 — S(t) 
In ( 5) = öln(A) + öln(t) 
in eine lineare Funktion (von In(t)) iibergefiihrt werden. Deshalb müsste ein 
Plot von In [a — S(t))/ S(t)] gegen In(t) annähernd linear sein, falls die An- 
nahme eines log-logistischen Modells passend ist. 


Im log-normalen Modell wird die Funktion S(t) = 1 — ® [(log(t) — )/o] mit 


1 
i= Sia 
[1 — S(t)] = -7 + = nl) 
in eine lineare Funktion übergeführt. Dementsprechend müsste ein Plot von 
®-1[1 — $(t)] gegen In(t) annähernd linear sein, falls das log-normale Modell 


eine gute Anpassung an die Daten liefert. 


Die Anpassungsgüte der einzelnen Modelle kann grob “mit freiem Auge” ab- 
geschätzt werden, da Abweichungen von einer Geraden meist leicht zu erkennen 
sind. Ergänzend kann auch ein lineares Regressionsmodell geschätzt werden 
und mit Hilfe von R? die Anpassungsgüte überprüft werden. Bei der Interpre- 
tation dieser Überprüfungen muss jedoch darauf geachtet werden, dass für die 
Überprüfung der Anpassungsgüte keine Kovariablen in das Modell einbezogen 
worden sind, das heißt eine homogene Population vorausgesetzt worden ist. 
Vernachlässigte Heterogenität kann jedoch die Gestalt der Überlebensfunktion 
stark beeinflussen, sodass Modell-Entscheidungen, die auf Modelle ohne Berück- 
sichtigung von Kovariablen beruhen, nicht überbewertet werden dürfen; siehe 
Abschnitt 6.3. 


Zur (graphischen) Überprüfung der Adäquatheit eines log-linearen Ereignisda- 
tenmodells (für zwei Gruppen mit (0, 1)-Kodierung) können auch Q-Q Plots 
(Quantile-Quantile Plots) herangezogen werden. Aufgrund der Beziehung (5.3) 
sind die Quantile to(p) der Gruppe 0 ein Vielfaches der Quantile tı(p) der zwei- 
ten Gruppe. Ein Plot von to(p) gegen t,(p) für verschiedene p-Werte sollte bei 
Adäquatheit des gewählten log-linearen Modelles annähernd linear durch den 
Ursprung sein; siehe etwa Collett (1994). 
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Zur Überprüfung der Anpassungsgüte eines parametrischen Ereignisdatenmo- 
dells können die sogenannten Coz-Snell-Residuen herangezogen werden, die 
mit . . 

&; = — In S(t;|x;) = H(t;\x;), 
definiert sind, wobei t; die beobachtete Ereignis- oder Zensierungszeit des In- 
dividuums 7 ist. 


Uber die Tatsache, dass eine Zufallsvariable Y = — ln S(T) unabhängig von 
der Gestalt der Uberlebensfunktion S(t) eine Exponentialverteilung mit Er- 
wartungswert Eins besitzt (siehe etwa Collett (1994)), kann folgende Aussage 
getroffen werden: Hat das betrachtete Modell eine gute Anpassungsgüte, dann 
sind die &;’s annähernd exponentialverteilt mit Parameter X = 1. Ist t; eine zen- 
sierte Verweildauer, so wird das zugehörige Residuum ebenfalls als zensiert be- 
trachtet. Ein Plot von — In[.S(é)] gegen ê, wobei S(e) eine nicht-parametrische 
Schätzfunktion ist, sollte daher annähernd eine Gerade durch den Ursprung 
ergeben. Näher wird auf Residuenanalysen im Abschnitt 6.5 eingegangen. 


Die Überprüfung der Anpassungsgüte von parametrischen Regressionsmodel- 
len wird beispielsweise in Allison (1998), Blossfeld und Rohwer (1995), Collett 
(1994) sowie Klein und Moeschberger (1997) behandelt. 


5.4 Das stückweise konstante Hazards-Modell 


Das im Abschnitt 5.1 diskutierte Exponential-Modell ist aufgrund der An- 
nahme einer konstanten Hazardrate in praktischen Anwendungen meist nicht 
geeignet. Das stückweise konstante Hazards-Modell ist eine Verallgemeinerung 
des Exponential-Modells und wird sehr häufig zur Modellierung von Ereignis- 
daten verwendet. Zur Modellierung des stückweise konstanten Modells wird 
die Beobachtungsperiode in beliebig viele (nicht notwendigerweise gleich lan- 
ge) Intervalle geteilt, in denen jeweils eine exponentialverteilte Verweildauer 
angenommen wird. Die Hazardrate im jeweiligen Intervall ist somit konstant. 
Neben der mathematischen Einfachheit des Exponential-Modells hat dieses 
Modell die Vorteile, dass 


e die Hazardrate im Gegensatz zum einfachen Exponential-Modell mit der 
Zeit variieren kann — nämlich zwischen fixen (beliebig gewählten) Perioden 
~ und somit die Abhängigkeit der Hazardfunktion von der Zeit analysiert 
werden kann; 


e die Zeitabhängigkeit von Kovariablen, deren Werte im Laufe des Prozes- 
ses variieren können, in Anwendungsbeispielen einfach modelliert werden 
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kann (zeitvariierende Kovariablen werden ausführlich im nächsten Kapitel, 
Abschnitt 6.3, diskutiert); 


e auch die Effekte der Kovariablen zwischen den Perioden variieren können. 


Ein Nachteil dieses Modells ist, dass die Willkürlichkeit der Intervallgrenzen 
die Schätzung beeinflussen kann. 


Werden mit ao, @),...,@y, wobei N die beliebige Anzahl der Intervalle ist und 
ao = 0,an = © gilt, die Grenzen zwischen den Intervallen bezeichnet, so 
erhält man für das stückweise konstante Modell mit zeitkonstanten Effekten 
der Kovariablen die Hazardfunktion im r-ten Intervall [a,_ı,a,),r =1,...,N, 
mit 

h,(x) = h(t|x) = exp(—6,9 — x'B) für a,_) <t < ar. (5.11) 
Die Hazardrate ist innerhalb der Intervalle konstant und ändert sich zwischen 
den Intervallen durch den Parameter G,9. Erlebt das Individuum i im N;-ten 
Intervall, N; < N, zum Zeitpunkt t; ein Ereignis oder wird es in diesem Inter- 
vall rechts-zensiert, so erhält man die Likelihoodfunktion des Modells (5.11): 


L(8) = TI [] (re (xi) }8" xp), (5.12) 


i=lr=1 
wobei 
oe Ar — Ar—1 r=1,...,N,-1 
a ti — an,-ı r=N; 
1 r = N; und das i-te Individuum hat zu t; ein Ereignis 
Oy = 0 r = N; und das i-te Individuum ist rechts-zensiert 


0 r=1,.,N; —-1 


Für die ML-Schätzung wird somit die Beobachtungsperiode jedes Individuums 
in N; Intervalle aufgeteilt. Trifft für ein Individuum ein Ereignis im dritten In- 
tervall ein (N; = 3) oder wird es in diesem Intervall zensiert, so werden aus 
dieser Beobachtung drei verschiedene Beobachtungen gebildet. Die ersten bei- 
den Beobachtungen gehen als rechts-zensierte Fälle mit einer Zeitdauer, die der 
Länge des betreffenden Intervalls entspricht, in die Schätzung ein. Die dritte 
Beobachtung geht als Ereignis oder als rechts-zensierter Fall mit Zeitdauer von 
Beginn dieses Intervalls bis zum Ereignis oder zur Zensierung in die Schätzung 
ein. 


Die Zeitabhängigkeit von Kovariablen, deren Werte im Laufe des Prozesses 
variieren können, kann insofern leicht berücksichtigt werden, indem für je- 
des Individuum bei der ML-Methode zu Beginn jedes Intervalls die Werte 
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der zeitabhängigen Variablen aktualisiert werden. Eine (stetige oder diskrete) 
zeitvariierende Kovariable z(t) nimmt somit im r-ten Intervall den konstanten 
Wert z(a,_,) an, das ist jener Wert, der zu Beginn des r-ten Intervalls beob- 
achtet wurde. Da eine zeitvariierende Variable innerhalb eines jeden Intervalls 
als konstant angenommen wird, erfolgt die Schätzung der Parameter analog 
(5.12). 


Zeitvariierende Effekte der Kovariablen werden im verallgemeinerten stückweise 
konstanten Modell 


h.(x) = A(t|x) = exp(—Gro — vB.) für a,—ı < t <a, (5.13) 


ermöglicht. Die Koeffizientenvektoren 8, können somit mit der Periode va- 
riieren. Es muss dann für jedes Intervall ein separates Exponential-Modell 
geschätzt werden. 


In einer Analyse des Studienabbruch-Risikos an der Wirtschaftsuniversität Wi- 
en kann etwa vermutet werden, dass der Matura-Schultyp lediglich in den er- 
sten Semestern einen Einfluss auf den Studienabbruch hat. Folgende Hypothese 
kann beispielsweise mit Hilfe des Modells (5.13) überprüft werden: “Maturan- 
ten von allgemein bildenden höheren Schulen sind in den ersten Semestern 
(aufgrund ihrer geringeren wirtschaftlichen Vorbildung) Abbruch gefährdeter 
als Maturanten von Handelsakademien. Dieser Effekt lässt jedoch nach und 
verschwindet nach einigen Semestern komplett.” 


Das Modell (5.13) ist äquivalent zu einem Modell, das in das Standard-Modell 
(5.11) alle möglichen Interaktionsvariablen zwischen den Perioden und den ein- 
bezogenen Kovariablen aufnimmt. Modell (5.11) ist ein Spezialfall vom verall- 
gemeinerten Modell (5.13). Die Schätzung des Modells (5.13) unter der Restrik- 
tion B; =... = Gn führt zu gleichen Parameterschätzern wie die Schätzung 
des Modells (5.11). 


Mit Hilfe des Likelihood-Quotiententests kann etwa die globale Hypothese Ho : 
3, =... = By getestet werden, dass die Parametervektoren in allen Perioden 
gleich sind. Die entsprechende Likelihood-Quotientenstatistik lautet 


G=? pa nê» - 1), 


wobei /,(ß,) die logarithmierte Likelihoodfunktion der Beobachtungen aus dem 
r-ten Intervall bei Annahme des Modells (5.13) und (8) die logarithmierte 
Funktion (5.12) ist. Unter Ho ist die Teststatistik asymptotisch x? mit (N—1)p 
Freiheitsgraden verteilt. 


Das stückweise konstante Hazards-Modell ist den im Kapitel 8 behandelten 
diskreten Ereignisdatenmodellen sehr ähnlich. Der wesentliche Unterschied be- 
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steht darin, dass im diskreten Modell zur Schätzung der Parameter nicht deı 
Zeitpunkt des Ereignisses oder der Zensierung herangezogen wird, sondern nui 
berücksichtigt wird, ob ein Ereignis (oder eine Zensierung) in einem bestimm- 
ten Intervall eingetroffen ist oder nicht. 


Das stückweise konstante Hazards-Modell wird beispielsweise in Allison (1998) 
Blossfeld und Rohwer (1995) und Yamaguchi (1991) behandelt. Alle in diesem 
Abschnitt besprochenen Verfahren werden durch die gängige Statistik-Software 
unterstützt. 
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Kapitel 6 


Das semiparametrische 
Hazards-Modell von Cox 


Im Abschnitt 5.1 wurden parametrische proportionale Hazards-Modelle h(t|x) 
= ho(t) exp(x’P) diskutiert, wobei für die Basis-Hazardfunktion ho(t) eine spe- 
zielle parametrische Form gewählt worden ist. 


In diesem Kapitel wird zur Schätzung der unbekannten Parameter 8 die Basis- 
Hazardfunktion ho(t) nicht näher spezifiziert. Das hier betrachtete semipara- 
metrische PH-Modell (meist nur als Cox-Modell bezeichnet) ist somit flexibler 
als die im vorangegangenen Kapitel besprochenen Ansätze. Es ist allerdings 
nicht möglich, Hypothesen über die Abhängigkeit der Hazardfunktion von der 
Zeit zu testen. 


Die Hazardrate und die Überlebensfunktion im Cox-Modell werden im nächsten 
Abschnitt diskutiert. Zur Schätzung der Parameter muss die ML-Methode mo- 
difiziert werden; die modifizierte (partielle) Likelihood-Methode zur Schätzung 
der unbekannten Parameter wird im Abschnitt 6.2 behandelt. Neben der ho- 
hen Flexibilität des Cox-Modells, die durch die nicht näher spezifizierte Basis- 
Hazardfunktion erreicht wird, macht das technisch einfache (und von der gän- 
gigen Statistik-Software unterstützte) Einbeziehen von zeitabhängigen Varia- 
blen und zeitvariierenden Effekten der Kovariablen das Cox-Modell für An- 
wender sehr attraktiv. Zeitabhängige Variablen und ihre Integration in das 
Cox-Modell und in parametrische Regressionsmodelle werden im Abschnitt 
6.3 erläutert. Das stratifizierte Cox-Modell, das beispielsweise bei Verletzung 
der Proportionalitätsannahme verwendet werden kann, wird im Abschnitt 6.4 
behandelt. Der letzte Abschnitt des Kapitels diskutiert Methoden zur Überprü- 
fung des Cox-Modells, wobei insbesondere auf die Überprüfung der Proportio- 
nalitätsannahme eingegangen wird. 
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6.1 Hazardrate und Uberlebensfunktion im 
Cox-Modell 


Wie im Abschnitt 5.1 erwähnt ist für proportionale Hazards-Modelle charak- 
teristisch, dass die Hazardrate faktorisiert wird in einen Term, der nur von der 
Zeit, und in einen Term, der nur von den Kovariablen abhängt. Die allgemeine 
Darstellung eines proportionalen Hazards-Modells ist demnach 


h(t|x) = ho(t)g(x;8),  g(.) > 0. 


Die (zeitunabhängigen) Kovariablen haben somit einen multiplikativen Effekt 
auf ho(t). Wird die Funktion g(x; 6) so gewählt, dass g(x = 0; 8) = 1 gilt, 
bezeichnet man die Funktion ho(t) als Basis-Hazardrate. Spezifiziert man ho(t) 
nicht näher, so spricht man von semiparametrischen Modellen. 


Die für diese Modelle charakteristische Eigenschaft der proportionalen Hazards 
ergibt sich aus der Betrachtung der Quotienten für zwei Individuen mit den 
Kovariablenvektoren x; und x; 


h(t|x:) _ g(x; B) 
hltix;) gl; B) 
Der Quotient HR, der als Hazard-Verhältnis bezeichnet wird, hängt somit 


nicht von der Zeit t ab; die Hazardrate des j-ten Individuums ist daher das 
H R-fache der Hazardrate des 7-ten Individuums. 


HR(t, Xi, Xj) == 


Im populären Cox-Modell, das in diesem Kapitel behandelt wird, gilt g(x; G) = 
exp(x’G), und daher 


_ (thei) _ holt) exp(x/ß) 
ern h(t|x;) ho(t) exp(x‘3) 


exp[(x: — x;y Ø]. 


Betrachten wir ein Cox-Modell, das nur die Variable Geschlecht - mit 7, = 1 
für Männer und Zp = 0 für Frauen - in das Modell einbezieht, dann gilt über 
die gesamte Zeit des Prozesses 


H R(t, £1, £o) = exp(P). 


Das bedeutet, dass sich die Stärke des Einflusses aller in das Modell einbe- 
zogenen Variablen nicht mit der Zeit ändert. Ist etwa 8 = In(2), dann haben 
Männer über die gesamte Zeit des Prozesses ein doppelt so hohes Risiko für ein 
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Ereignis wie Frauen. Diese Annahme von proportionalen Hazardraten schränkt 
die Flexibilität des Cox-Modells ein. Alternativen bei Verletzung der Propor- 
tionalitätsannahme werden in den Abschnitten 6.3 und 6.4 und Methoden zur 
Überprüfung der Proportionalitätsannahme im Abschnitt 6.5 besprochen. 


Die Überlebensfunktion im Cox-Modell lässt sich ermitteln zu 
S(tx) = S(t) P). 


Somit sind auch die logarithmierten Uberlebensfunktionen von Individuen mit 
den Kovariablenvektoren x; und x; mit dem gleichen Faktor wie die Hazardra- 
ten proportional zueinander. 


6.2 Partielle Likelihood Schätzung 


Die Likelihoodfunktion fiir das Cox-Modell ist nach (5.7) (unter Annahme 
eines nicht-informativen Zensierungsmechanismus) 


L(ß) = [iota exp (x8)]* exp { — Í Í ho(u) exp(&B)du}. (6.1) 


Diese Funktion enthält neben den unbekannten Parametern ß auch die belie- 
bige Basis-Hazardfunktion ho(t); darum kann diese Likelihoodfunktion nicht 
zur Schätzung der Parameter herangezogen werden. 


Es seien ta) < ... < t) k < n, die geordneten Ereigniszeiten, X(1), - - - , X(k) 
die entsprechenden Kovariablen-Vektoren und R(t) die Risikomenge zum Zeit- 
punkt t, dann erhält man aus (6.1) durch Erweiterung 


k zow 
L(8) = — aeto) D expla) SeA, (6.2) 


lER(tu)) lER(t iy) t=1 
wobei Sp(t) = exp(— fé ho(u)du). Cox (1972) schlug vor, den ersten Faktor 
8-11 = (xab) 


izi exp(x8) 
ee) 


(6.3) 


wie eine gewöhnliche Likelihoodfunktion zu behandeln und ihn zur Schätzung 
von 8 zu maximieren. Da der zweite Faktor auf der rechten Seite von (6.2), der 
ebenfalls die zu schätzenden Parameter 8 enthält, zum Schätzen der Parameter 
weggelassen wird, nennt man die Funktion (6.3) partielle Likelihood-Funktion. 
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Die Information, die durch Weglassen des rechten Faktors verloren geht, kann 
sich insbesondere bei kleinen Stichprobenumfängen auf die Güte der Schätzung 
auswirken. Ein weiterer Informationsverlust kann durch die Einschränkung auf- 
treten, dass bei der partiellen Likelihood-Methode nicht die genauen Ereignis- 
zeiten sondern nur ihre Rangordnung berücksichtigt wird. Mit Hilfe der Theo- 
rie der Zählprozesse konnte gezeigt werden, dass partielle Likelihood-Schätzer 
konsistent und asymptotisch normal aber nicht notwendigerweise asymptotisch 
effizient (wie ML-Schätzer) sind. Der Ausdruck 
hal)  _ __ PR) 


 hlalxı) > exp(x}ß) 
lER(tu)) lER(tu)) 
kann interpretiert werden als die bedingte Wahrscheinlichkeit, dass zum Zeit- 
punkt ta) gerade für das Individuum mit Kovariablenvektor x; aus der Ri- 
sikomenge R(t) ein Ereignis eintrifft, unter der Voraussetzung, dass zum 
Zeitpunkt t) (genau) ein Ereignis stattfindet. Das Produkt über alle k Ereig- 
niszeitpunkte ergibt dann die partielle Likelihoodfunktion (6.3). 


Die Konstruktion der Teststatistiken zur Überprüfung der Hypothesen auf Si- 
gnifikanz einzelner oder mehrerer Variablen erfolgt analog zu Abschnitt 5.1, 
nur wird statt der (logarithmierten) Likelihoodfunktion (5.7) die partielle (lo- 
garithmierte) Likelihoodfunktion (6.3) verwendet. Die dafür notwendigen Vor- 
aussetzungen, dass die partiellen Likelihood-Schätzer die gleichen asymptoti- 
schen Eigenschaften wie die ML-Schätzer besitzen, wurden erst mit Hilfe der 
Theorie der Zählprozesse bewiesen; siehe Andersen et al. (1993) oder Fleming 
und Harrington (1991). 


Die partielle Likelihoodfunktion (6.3) ist nur für Ereignisdaten valid, bei de- 
nen nicht mehr als ein Ereignis zu einem Zeitpunkt t auftritt. Weniger präzise 
Messungen führen häufig zu Datensätzen, die mehrere Fälle enthalten, die ein 
Ereignis zum selben (beliebigen) Zeitpunkt t erleben. Diese Fälle nennt man 
Bindungen (engl. ties). Bei Vorhandensein von Bindungen muss die partielle 
Likelihood-Funktion (6.3) modifiziert werden. Breslow (1974) schlägt vor, fol- 
gende approximative partielle Likelihood-Funktion zu maximieren, falls meh- 
rere Ereignisse auf einen Zeitpunkt fallen: 


k w| F x8) 
PLs = [Í rn: 
i=l 
| > elas) 
JGER(tiy) 


Dabei ist d; die Anzahl der Individuen mit Ereignis zum Zeitpunkt ti), und 
D(t.y) ist die Menge der Individuen, die zum Zeitpunkt t; ein Ereignis erlebt 
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haben. Ist die Anzahl gleicher Ereigniszeiten groß, so ist die Approximation 
von Breslow weniger geeignet. Eine etwas bessere Approximation der exakten 
Likelihood-Funktion wurde von Efron (1977) vorgeschlagen: 


. exp ( 2) 
PLz=]]J zZ 
di 
= H] E exp(x48) - H © exp(xiß) 
l=1 |jeR(t.:y) jeD(t«)) 


In den gängigen Software-Produkten sind sowohl der Breslow- als auch der 
Efron-Schätzer implementiert. 


Die Konstruktion einer exakten partiellen Likelihoodfunktion geht davon aus, 
dass gleiche Ereigniszeiten durch unpräzise Messungen zustande kommen, und 
dass es somit in Wirklichkeit eine Ordnung dieser (gleichen) Ereigniszeiten 
gibt. Da diese Ordnung nicht bekannt ist, müssen alle Möglichkeiten einer 
Ordnung unter den gleichen Ereigniszeiten zur Konstruktion einer exakten 
partiellen Likelihood-Funktion betrachtet werden, das sind d;! Möglichkeiten 
zum Zeitpunkt t). Details zur Konstruktion gibt Allison (1998). Ist die Anzahl 
der Ereignisse an einem Zeitpunkt sehr groß, so ist meist ein diskretes Ereig- 
nisdatenmodell geeigneter. Diskrete Ereignisdatenmodelle werden in Kapitel 8 
behandelt. 


Obwohl die Basis-Hazardrate im Cox-Modell nicht näher spezifiziert wird, ist es 
möglich, basierend auf den ermittelten Parameterschätzern 9 des Cox-Modells, 
einen Schätzer 


(tlx) = ê (t)r P) 


für die Uberlebensfunktion zu ermitteln. Die Basis-Überlebensfunktion So(t) 
kann mit Hilfe einer nicht-parametrischen Likelihood-Methode geschätzt wer- 
den. Klein und Moeschberger (1997) behandeln die von Breslow (1974) und 
von Kalbfleisch und Prentice (1973) vorgeschlagenen Schätzer für die kumu- 
lative Basis-Hazardrate Ho(t), die über So(t) = exp[- F(t) eine Schätzung 
der Basis-Überlebensfunktion ermöglichen. Die geschätzte Überlebensfunktion 

S(t|x) wird für verschiedene Methoden zur Überprüfung des Cox-Modells benö- 
tigt; siehe Abschnitt 6.5. Die beiden Schätzer sind auch in der kommerziellen 
Statistik-Software implementiert. 
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6.3 Zeitabhängige Kovariablen 


Wie schon erwähnt ist die Möglichkeit, zeitabhängige Variablen in das Mo- 
dell zu integrieren, eine besondere Stärke der Ereignisdatenanalyse. Im Fal- 
le von Studienverlaufsanalysen ist anzunehmen, dass der Beginn einer Er- 
werbstätigkeit bzw. ein Wechsel des Berufsstatus von teilzeit beschäftigt auf 
voll beschäftigt, also eine Änderung der Variablen Berufstätigkeit während 
des Studiums, oder etwa die Aufnahme eines zweiten, parallel geführten Stu- 
diums die Chancen auf einen erfolgreichen Abschluss verringert. Die Varia- 
blen Berufstätigkeit bzw. Doppelstudium müssten realitätsgerecht als zeit- 
veränderliche Variablen in das Modell aufgenommen werden. Ein weiteres Bei- 
spiel ist die Verantwortung für ein Kind, die in manchen Fällen während des 
Studiums übernommen wird. 


Das Einbeziehen zeitvariierender Merkmale als zeitkonstante Kovariablen kann 
zu falschen kausalen Schlüssen führen. In einer Studienverlaufsanalyse soll etwa 
untersucht werden, ob die Betreuung eines Kindes die Studiendauer der/des 
Studierenden verlängert. Wird das dichotome Merkmal “Betreuung von Kin- 
dern” als zeitkonstante Variable in das Modell integriert, so gibt die Variable 
lediglich an, ob der/die Studierende während der Studienzeit ein Kind betreut 
hat oder nicht. Da sich mit der Dauer des Studiums die Chance erhöht, dass 
ein Kind zu betreuen ist, kann die Einbeziehung dieser Variablen als zeitkon- 
stante Variable zu dem (zumindest teilweise) falschen Schluss führen, dass die 
Betreuung eines Kindes die Studiendauer verlängert. Wird die Variable jedoch 
als zeitveränderlich in das Modell einbezogen, so wird der Wert der Variablen 
erst ab dem Beginn der Kinderbetreuung auf den Wert Eins gesetzt und somit 
die Gefahr eines falschen (stark verzerrten) kausalen Schlusses vermieden. 


Yamaguchi (1991) führt ein ähnliches Beispiel aus der Sozialforschung an. Wird 
die dichotome Variable “kinderlose Ehe” als zeitkonstantes Merkmal in das 
Modell einbezogen, so ist der verringernde Effekt eines Kindes auf das Schei- 
dungsrisiko (zumindest teilweise) auf die Tatsache zurückzuführen, dass die 
“Chance” auf Kinder mit der Dauer der Ehe zunimmt. 


Allison (1998) gibt ein konkretes Beispiel aus dem medizinischen Bereich. In 
einer Studie soll untersucht werden, ob eine Herztransplantation das Sterbe- 
risiko von Herzpatienten verringert. Die dichotome Variable “Herztransplan- 
tation” wird als zeitkonstante Variable in das Modell integriert. Die Variable 
gibt in diesem Fall an, ob der Patient bis zum Ende der Beobachtungsperi- 
ode eine Herztransplantation gehabt hat oder nicht. In diesem Modell hat die 
Variable Herztransplantation einen signifikant verringernden Einfluss auf das 
Sterberisiko. Wird die Variable jedoch als zeitveränderliche Variable in das 
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Modell einbezogen, das heißt, der Wert der Variablen wird erst zum Zeitpunkt 
der Transplantation auf den Wert Eins gesetzt, so zeigt sich kein signifikanter 
Einfluss der Variablen. Der signifikante Effekt der zeitkonstant modellierten 
Variablen lässt sich dadurch erklären, dass jene Patienten, die länger leben, 
größere Chancen auf eine Herztransplantation haben als Patienten, die bald 
nach Eintritt in die Studie sterben. 


Wie im Abschnitt 5.4 erwähnt, können zeitveränderliche Variablen relativ pro- 
blemlos in das stückweise konstante Hazards-Modell integriert werden. Auch 
das Cox-Modell erlaubt — auf technisch einfache Weise — die Einbeziehung qua- 
litativ und quantitativ zeitveränderlicher Variablen und die Schätzung der Pa- 
rameter; diese Möglichkeiten werden auch von der gängigen Statistik-Software 
unterstützt. Die Einbeziehung zeitveränderlicher Variablen in parametrische 
Regressionsmodelle und die Schätzung der Parameter ist mit größeren Schwie- 
rigkeiten verbunden und wird auch nicht von der gängigen Statistik-Software 
unterstützt. Aus diesen Gründen werden zeitveränderliche Variablen meist im 
Zusammenhang mit Cox-Modellen diskutiert. 


Kategorisierung von zeitabhängigen Variablen 


Im Allgemeinen werden in der Literatur — meist im Zusammenhang mit der 
kausalen Interpretation von zeitveränderlichen Variablen und dem darin inklu- 
dierten Problem der wechselseitigen Beeinflussung (engl. reverse causation) — 
exogene und endogene zeitabhängige Variablen unterschieden. 


Eine Kovariable ist (in Anlehnung an Lancaster (1990)) exogen, falls der 
Verlauf des Kovariablenprozesses unabhängig von Änderungen im untersuchten 
Prozess ist, jedoch selbst die zu untersuchende Zeitdauer bis zum Ereignis 
beeinflussen kann. Dazu gehören folgende in Kalbfleisch und Prentice (1980) 
als extern bezeichnete Kovariablen: 


e zeitkonstante Kovariablen (Geschlecht, Nationalität, Schultyp, Rasse) 


e definierte (zeitabhängige) Kovariablen; die Abhängigkeit von der Zeit kann 
in einer vorher festgelegten funktionalen Form beschrieben werden. Dazu 
gehören zum Beispiel 


— das Alter oder die Verweildauer in einem bestimmten Zustand; bei 
der Analyse der gesamten Studiendauer von Studierenden, die bereits 
den ersten Abschnitt beendet haben, ist die “Verweildauer” im zweiten 
Abschnitt eine definierte zeitabhängige Kovariable 
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— Interaktionsvariablen der Zeit und einer zeitunabhängigen Kovariablen 
(beispielsweise g(t)x Schultyp), das sind Variablen, die erlauben, dass 
sich die Effekte bestimmter Kovariablen mit der Zeit ändern; die Einbe- 
ziehung solcher Variablen wird häufig zur Überprüfung der Proportio- 
nalitätsannahme der zeitunabhängigen Kovariablen verwendet; siehe 
Abschnitt 6.5 


e Hilfsvariablen, das sind Realisierungen eines stochastischen Prozesses, die 
unabhängig (extern) vom untersuchten Prozess sind (etwa Umwelt- und 
Wirtschaftsfaktoren); die Einführung von Studiengebühren in einer Analyse 
der Studiendauer oder die Arbeitslosenrate einer Region in einer Arbeitslo- 
senstudie sind zeitabhängige Kovariablen, die die individuellen Hazardraten 
beeinflussen können, selbst jedoch unabhängig vom Verlauf des untersuch- 
ten Prozesses sind. 


Endogene (zeitabhängige) Kovariablen beschreiben einen stochastischen Pro- 
zess, dessen Verlauf vom Verlauf (bzw. der Hazardrate) des untersuchten Pro- 
zesses abhängt; der Kovariablen- und abhängige Prozess beeinflussen einander 
somit wechselseitig. Dadurch treten auch sogenannte feedback-Effekte auf, die 
durch den Effekt des abhängigen Prozesses auf den Kovariablenprozess, der 
wiederum den anhängigen Prozess beeinflusst, auftreten. Da diese feedback- 
Effekte von den “echten” Effekten der endogenen Kovariablen (zumeist) nicht 
getrennt werden können, wird die Interpretation der kausalen Effekte von en- 
dogenen Kovariablen in der (vor allem sozialwissenschaftlichen) Literatur als 
problematisch angesehen. Exogene Variablen sind von diesem Problem nicht 
betroffen. 


Zu den endogenen Variablen gehören die von Kalbfleisch und Prentice (1980) 
als intern bezeichneten Variablen, das sind zeitveränderliche Variablen, die nur 
solange definiert sind, solange das interessierende Ereignis nicht eingetroffen 
ist. Zum Beispiel kann das Gehalt in einer Studie des Arbeitslosenrisikos nur 
solange gemessen werden, solange das Individuum eine Arbeit hat. Weitere 
Beispiele für endogene Kovariablen sind 


e die Erwerbstätigkeit oder eine zweite, parallel laufende Ausbildung in Stu- 
dienverlaufsanalysen; es ist zu etwa vermuten, dass Misserfolg im Haupt- 
studium die “Chancen” auf den Beginn einer Erwerbstätigkeit oder eines 
zweiten Studiums erhöhen, und die Erwerbstätigkeit oder die zweite Ausbil- 
dung selbst wieder die “Chancen” auf einen erfolgreichen Studienabschluss 
verringern. 


e der Status der Erwerbstätigkeit in einer Analyse der Dauer bis zur Scheidung 
der ersten Ehe; aus empirischen Studien ist bekannt, dass der Familienstand 
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(verheiratet oder geschieden), also der Zustand des abhängigen Prozesses, 
den Status der Erwerbstätigkeit, also den Kovariablenpfad, beeinflusst. 


Wechselseitige Beeinflussung kann zu falschen kausalen Schlüssen führen, falls 
die Ereigniszeiten und die Änderungszeitpunkte der endogenen Kovariablen 
nicht exakt gemessen werden. In einer Analyse der Rückfälligkeit von Straftä- 
tern (von Allison (1998)) wurde auch die zeitveränderliche Variable Erwerbstä- 
tigkeit (in den beiden Ausprägungen voll beschäftigt oder nicht) in das Mo- 
dell einbezogen. Sowohl der abhängige Prozess als auch der Kovariablenprozess 
wurden in Wochen gemessen. Falls nun jemand am Anfang einer Woche wieder 
inhaftiert worden ist, bekommt die Variable Berufstätigkeit für diese Woche 
(also für den Zeitpunkt der Inhaftierung) den Wert “nicht voll berufstätig” - 
auch wenn der Verhaftete zum Zeitpunkt der Verhaftung voll berufstätig war. 
Der Effekt, dass ehemalige Häftlinge, die nicht voll berufstätig sind, gefährdeter 
für einen Rückfall sind als voll beschäftigte Straftäter, wird somit verstärkt. 
Eine Möglichkeit, diesem Problem zu begegnen, ist die Einbeziehung der Va- 
riablen Berufstätigkeit in Abhängigkeit von der Vorwoche. In diesem Fall wird 
analysiert, ob Personen, die in der Vorwoche t — 1 nicht voll berufstätig wa- 
ren, eine höhere Rückfälligkeitsrate in der Woche t haben als jene, die voll 
berufstätig waren. 


In Anwendungsbeispielen werden endogene Kovariablen genauso wie exoge- 
ne Variablen in das Ereignisdatenmodell integriert und mit der (partiellen) 
Likelihood-Methode geschätzt; der Effekt der endogenen Variablen wird in 
gleicher Weise wie der Effekt von exogenen Variablen analysiert — meist mit 
dem Hinweis, dass bei der kausalen Interpretation der endogenen Variablen 
Vorsicht geboten ist. 


Im Zusammenhang mit der Einbeziehung von (endogenen) zeitveränderlichen 
Variablen wird auch häufig das Problem der unbeobachteten Heterogenität dis- 
kutiert, dem in der Ereignisdatenanalyse mehr Bedeutung als in der linearen 
Regressionsanalyse zukommt. Von unbeobachteter Heterogenität spricht man, 
falls neben den in das Modell aufgenommenen Variablen weitere Merkmale, 
die nicht erhoben worden oder nicht bekannt sind, den abhängigen Prozess be- 
einflussen. Wangler (1997) befasst sich in ihrer Arbeit schwerpunktmäßig mit 
diesem Thema. Die Konsequenzen von unbeobachteter Heterogenität auf die 
Abhängigkeit der Hazardfunktion von der Zeit — die Nichtberiicksichtigung der 
Heterogenität führt entweder zu einer Überschätzung des negativen Verweil- 
dauereffektes oder zu einer Unterschätzung des positiven Verweildauereffektes 
— und auf die (kausale) Interpretation des Effektes der einbezogenen Varia- 
blen diskutieren auch Vermunt (1997), Yamaguchi (1991) und Blossfeld und 
Rohwer (1995) ausfiihrlich. 
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Die Kategorisierung von zeitveränderlichen Kovariablen behandeln im Detail 
Kalbfleisch und Prentice (1980), Lancaster (1990), Yamaguchi (1991), Blossfeld 
und Rohwer (1995) und Vermunt (1997). 


Zeitabhängige Variablen im Cox-Modell 


Die Einbeziehung von zeitveränderlichen Kovariablen in das Cox-Modell erfolgt 
in der Form 


il 


hex = hdan EArt E Brst) 


j=pı+1 


ho(t) exp(x’(t)B) (6.4) 


Die Gleichung (6.4) ist die verallgemeinerte Darstellung des Cox-Modells, denn 
eine zeitkonstante Variable kann betrachtet werden als 


Im Modell (6.4) hängt die Hazardrate zum Zeitpunkt ¢ von den zeitunabhängigen 
Kovariablen 21,...,2p, und von den Werten der zeitabhängigen Variablen 


Lp, +1(t), 
...,Zp(t) zum Zeitpunkt t ab. 


Im Zusammenhang mit dem Problem der wechselseitigen Beeinflussung wurde 
bereits diskutiert, dass es — je nach Problemstellung — manchmal sinnvoll ist, 
endogene zeitabhängige Variablen in Abhängigkeit von t— 1 in das Modell ein- 
zubeziehen. In praktischen Anwendungen gibt es verschiedene Möglichkeiten, 
wie endogene zeitabhängige Variablen in ein Modell einbezogen werden können. 
Wollen wir beispielsweise die Studiendauer in Abhängigkeit der Berufstätigkeit 
modellieren, so kann die als durchschnittliches Wochenstundenausmaß je Mo- 
nat gemessene Variable Berufstätigkeit zum Zeitpunkt t etwa wie folgt definiert 
werden: x(t) gibt das durchschnittliches Wochenstundenausmaß 


e im laufenden Monat t 
e im vorangegangenen Monat t — 1 
e in den letzten zwei Semestern 


e seit Beginn des Studiums 
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an. Ganz allgemein wollen wir deshalb in der vorliegenden Arbeit den Ausdruck 
z(t) als jenen Wert der in das Modell einbezogenen zeitabhängigen Kovaria- 
blen verstehen, mit dem diese Variable zum Zeitpunkt t in die ML-Schätzung 
eingeht; vgl. Abschnitt 12.3 und Allison (1998). 


Im verallgemeinerten Cox-Modell sind die Hazardraten zweier Individuen k 
und m nicht mehr proportional: 


hlt, Xk (t) 


a) = hlt, Xm(t)] 


exp A + D T E 
j=l 


j=pitl 


Die Verallgemeinerung der partiellen Likelihood-Funktion ist 


AO) 
en) = 
ERE) 


Aus (6.5) ist zu erkennen, warum die Einbeziehung zeitveränderlicher Varia- 
blen in das Cox-Modell (technisch) einfach zu handhaben ist; zu jedem Er- 
eigniszeitpunkt t) wird für jedes Individuum aus der Risikomenge R(t) der 
aktuelle Wert der zeitveränderlichen Kovariablen für die partielle Likelihood- 
Schätzung verwendet. Allerdings müssen zu jedem Ereigniszeitpunkt für jedes 
Individuum aus der Risikomenge die Werte der zeitveränderlichen Variablen 
überprüft werden; die partielle Likelihood-Schätzung unter Berücksichtigung 
von zeitabhängigen Variablen ist daher sehr rechenintensiv. 


Die Schätzung der Parameter auf Basis von (6.5) erfordert eine genaue Auf- 
zeichnung der Kovariablenpfade. Zu jedem Ereigniszeitpunkt tq) müssen für al- 
le Individuen aus R(t) die Werte der Kovariablen bekannt sein. Die zeitabhän- 
gige Kovariable muss daher in kleineren oder gleichen Einheiten, zum Bei- 
spiel in Tagen oder Wochen, wie der interessierende Prozess gemessen werden. 
Oft werden zeitveränderliche Variablen in regelmäßigen Abständen gemessen, 
beispielsweise monatliche Messung des Blutdrucks bei Patienten. Wird der 
abhängige Prozess in kleineren Einheiten modelliert, so ist der exakte Wert 
der zeitveränderlichen Kovariablen für die Ereigniszeitpunkte nicht bekannt. 
Beispielsweise erscheint es nicht sinnvoll, die Berufsintensität von Studieren- 
den (in Wochenstunden) retrospektiv in Monaten zu erheben, da sich die 
Befragten mit Sicherheit nicht mehr an die genauen Daten erinnern werden. 
Die Berufstätigkeit muss daher semesterweise (oder jährlich) erhoben werden, 
während die Dauer bis zum Studienende hingegen in Monaten modelliert wer- 
den kann. In diesem Fall werden Approximationen für den Wert der Kovaria- 
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blen zum Zeitpunkt tų) eingesetzt. Näheres zu diesem Problem findet sich im 
Abschnitt 12.3 bzw. in Allison (1998) 


Episodensplitting zur Einbeziehung zeitabhängiger Va- 
riablen in parametrische Regressionsmodelle 


Während die partielle Likelihood-Schätzung relativ einfach für die Einbezie- 
hung zeitveränderlicher Variablen modifiziert werden kann und dies auch von 
der gängigen Statistik-Software unterstützt wird, ist die Anpassung der Maxi- 
mum-Likelihood-Methode zur Schätzung von parametrischen Regressionsmo- 
dellen mit zeitveränderlichen Variablen nicht so problemlos. 


Diskrete zeitveränderliche Variablen folgen im Prozessverlauf der Gestalt einer 
Treppenfunktion und sind stückweise konstant. Wird ein Individuum 7 von tọ = 
0 bis t; beobachtet, werden mit 0 < tı; < ... < ts, die s; Änderungszeitpunkte 
einer diskret zeitveränderlichen Variablen im Intervall [0, t;) bezeichnet und sei 
ts;+1 = t; der Ereignis- bzw. Zensierungszeitpunkt des i-ten Individuums, dann 
kann der Beitrag des i-ten Individuums zur Likelihoodfunktion geschrieben 
werden als: 


s;+1 


L;(8) = II {hft,, [>i (tr,—1)]}°" S [tn ltr,—13 Xi(tr,—1)], (6.6) 
r=1 
wobei 
1 Ti = 8; + l und das 7-te Individuum ist nicht zensiert 
by, = | 0 T; = S; + 1 und das i-te Individuum ist rechts-zensiert 
0 Ti = 1, Si 
und 


A ea (- M huts) | 


Zur Schätzung der unbekannten Parameter mit der ML-Methode wird die 
Beobachtungsperiode des Individuums 7 somit in s; + 1 Subepisoden aufge- 
teilt. Jede Subepisode wird dann in der Schätzung als eigenständige (links 
abgeschnittene) Beobachtung mit zeitkonstanten Kovariablen behandelt und 
enthält 


1. die Ausprägungen der Kovariablen zu Beginn der Subepisode, 


2. die Zeitpunkte von Beginn und Ende der Subepisode und 
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3. den Zensierungsindikator, ob die Subepisode mit einem Ereignis geendet hat 
oder nicht. 


Beispielsweise kann in einer Studienverlaufsanalyse berücksichtigt werden, ob 
die Studierenden Kinder versorgen oder nicht. Wird dann eine Studentin wäh- 
rend ihrer Studienzeit Mutter (oder ein Student Vater), so wird ihre Studienzeit 
in zwei Subepisoden unterteilt — in die kinderlose Studienzeit bis zur Geburt 
und danach in die Periode bis zum Ende bzw. Abbruch des Studiums oder 
bis zum Ende des Beobachtungszeitraums, falls das Studium dann noch im 
Gange ist. Die Risikoperiode der zweiten Subepisode beginnt mit der Geburt 
des Kindes, und die Beobachtung, die die zweite Subepisode beschreibt, ist 
daher links abgeschnitten. Vermunt (1997) und Blossfeld und Rohwer (1995) 
zeigen, dass im Falle von semiparametrischen Cox-Modellen die Maximierung 
der Likelihoodfunktion (6.6) der Maximierung der verallgemeinerten partiellen 
Likelihood-Funktion (6.5) entspricht. 


Bei stetigen zeitveränderlichen Variablen, die keine bestimmte vorgegebene 
Funktion der Verweildauer sind, besteht diese einfache Möglichkeit der Ein- 
beziehung in das parametrische Modell nicht. Eine mögliche Lösung besteht 
darin, den Verlauf der stetigen zeitveränderlichen Variablen zu approximieren, 
indem man sie über festgelegte Subepisoden als stückweise konstant betrachtet 
und ihre Werte zu Beginn jeder Subepisode aktualisiert. Die Vorgehensweise 
zur Schätzung der unbekannten Parameter erfolgt dann wie bei diskreten zeit- 
veränderlichen Variablen. 


Mit der Einbeziehung von zeitveränderlichen Variablen in parametrische Re- 
gressionsmodelle setzen sich beispielsweise Blossfeld et al. (1986), Blossfeld und 
Rohwer (1995) und Petersen (1986) auseinander. Die Maximierung von (6.6) 
ist mit der gängigen Statistik-Software nicht möglich; jedoch unterstützt das 
Programm TDA dieses Methode für zahlreiche parametrische Regressionsmo- 
delle. 


6.4 Das stratifizierte Cox-Modell 


Ist bei der Überprüfung der Proportionalitätsannahme (siehe Abschnitt 6.5) 
festgestellt worden, dass diese Annahme für eine der einbezogenen zeitun- 
abhängigen Kovariablen verletzt ist, dann ist es möglich, die Daten nach dieser 
Variablen zu schichten und für jede Schicht ein proportionales Hazards-Modell 
in Abhängigkeit der anderen Kovariablen aufzustellen: 


haltlx(t)] = Aog(t) exp(x'(t)B), g=1,...,8, (6.7) 
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wobei s die Anzahl der Kategorien der Schichtungsvariablen ist. Kontinuierlich 
skalierte Variablen, die die Proportionalitätsannahme nicht erfüllen, müssen 
erst gruppiert werden, um das stratifizierte Modell anwenden zu können. Da 
die Schichtungsvariable nicht im Modell inkludiert ist, erhält man bei diesem 
Modell keine Aussagen über den Effekt dieser Variablen. Daher eignet sich 
das stratifizierte Modell nur dann, falls Aussagen über den Effekt der Schich- 
tungsvariablen nicht von Interesse sind. Die Hazardfunktionen der einzelnen 
Schichten im Modell (6.7) unterscheiden sich in den Basis-Hazardraten, jedoch 
nicht in den Parameterschätzern 8. Es wird also im stratifizierten Cox-Modell 
(6.7) angenommen, dass die Effekte der in das Modell einbezogenen Varia- 
blen in allen Schichten gleich sind, also nicht von der Schicht abhängen. Das 
ist gleichbedeutend mit der Annahme, dass es keine Interaktionseffekte der 
einbezogenen Kovariablen mit der Schichtungsvariable gibt. 


Die Schätzung der Parameter erfolgt über Maximierung der partiellen Likeli- 
hood-Funktion, die durch Multiplizieren der partiellen Likelihoodfunktionen 
jeder einzelnen Schicht erhalten wird: 


PLs(ß) = [] PL,(8) 


Auch für den Fall, dass mehrere zeitunabhängige Variablen die Proportiona- 
litätsannahme nicht erfüllen, kann das stratifizierte Cox-Modell verwendet wer- 
den, indem alle möglichen Kombinationen zwischen den Kategorien der betref- 
fenden Variablen gebildet werden. Im Falle von p Kovariablen mit jeweils g; 
Kategorien, erhält man somit s = gı X g2 X -+> X gp Schichten. 


Um zu testen, ob die Effekte der einbezogenen Variablen in den Schichten 
gleich sind, dass also keine Interaktionseffekte zwischen den Schichten und den 
einbezogenen Variablen auftreten, wird ein Modell gebildet, dass von unter- 
schiedlichen Parameterschätzern in den Schichten ausgeht: 


hglt|x(t)] = hog(t) exp(x'(t)B8,) g=1,...,8, (6.8) 


wobei s = gı X 9 X +*+: X 9 gilt. Es wird also für jede Schicht separat ein ei- 
genes Cox-Modell geschätzt. Das Modell (6.8) ist äquivalent zu einem Modell, 
das in das stratifizierte Cox-Modell (6.7) alle möglichen Interaktionsvariablen 
zwischen den Schichten und den einbezogenen Kovariablen aufnimmt. Für den 
einfachsten Fall einer dichotomen Schichtungsvariablen (beispielsweise das Ge- 
schlecht) und einer in das Modell einbezogenen zeitunabhängigen Kovariable 
x, die die Proportionalitätsannahme erfüllt, erhält man die stratifizierten Ha- 
zardraten: 


hg(t|z) = hog exp(zß;) = hog exp(zP} + (sex x 2)5), 
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wobei g = 1,2 und sex = 1 für weibliche und ser = 0 für männliche Fälle gilt. 


Mit Hilfe des Likelihood-Quotiententests kann beispielsweise die globale Hy- 
pothese getestet werden, dass die Parameterschätzer jeweils in allen Schichten 
gleich sind: Ho : jı =... = js für alle j = 1,...,p. Zur Durchführung des 
Tests werden die entsprechenden logarithmierten partiellen Likelihoodfunktio- 
nen InPL(.) = PI(.) für die beiden Modelle (6.7) und (6.8) gebildet und dann 
die Likelihood-Quotientenstatistik 


G=2 p Pl,(ß,) ~ Pls(ß) 


ermittelt. Unter Ho ist die Teststatistik asymptotisch x? mit (g —1)p Freiheits- 
graden verteilt. 


Analog zu Abschnitt 5.2 können auch Hypothesen über die Gleichheit einzelner 
Regressionskoeffizienten — unter Berücksichtigung der anderen in das Modell 
einbezogenen Variablen — getestet werden: Ho : Pjı =... = fjs. 


Das stratifizierte Cox-Modell wird ausführlich in Kleinbaum (1996) diskutiert 
sowie in Allison (1998), Blossfeld und Rohwer (1995), Hosmer und Lemeshow 
(1999) und Klein und Moeschberger (1997). Die in diesem Abschnitt disku- 
tierten Ansätze werden von der gängigen Statistik-Software unterstützt. 


6.5 Modellüberprüfungen 


In diesem Abschnitt werden Methoden zur Überprüfung der Adäquatheit des 
angepassten Cox-Modells besprochen. Die allgemeine Anpassungsgüte des Mo- 
dells, die funktionale Form der einbezogenen Kovariablen, die Proportiona- 
litätsannahme und mögliche Ausreißer sind Thema dieses Abschnitts. In Er- 
eignisdatenmodellen können Residuen nicht so einfach wie in linearen Regres- 
sionsmodellen definiert werden. In der Literatur werden verschiedene Konzepte 
von Residuen für das Cox-Modell definiert, die je nach dem Aspekt des Mo- 
dells, der überprüft werden soll, eingesetzt werden. Einige der Residuen und 
ihre Verwendung werden in diesem Abschnitt behandelt. 


Allgemeine Anpassung an die Daten — Cox Snell Residu- 
en 


Im Abschnitt 5.3 haben wir einige Methoden kennengelernt, wie man die 
Adäquatheit der getroffenen Verteilungsannahmen in einem parametrischen 
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Modell überprüfen kann. Cox-Snell Residuen wurden eingeführt, um die An- 
passungsgüte des gewählten Modells unter Einbeziehung von Kovariablen zu 
überprüfen. Diese Residuen können analog für das Cox-Modell (mit zeitun- 
abhängigen Kovariablen) definiert werden: 


ê; = Polti) exp(x’ß) = Att;\x;), 


wobei Ho(t) ein Schätzer der kumulativen Basis-Hazardrate ist; siehe Ab- 
schnitt 6.2. Hat das Cox-Modell eine gute Anpassungsgüte, dann sollten sich 
die &;’s annähernd wie eine zensierte Stichprobe von einer Exponentialvertei- 
lung mit Parameter À = 1 verhalten. Ein Steudiagramm von — In(S(é)) gegen 
ê, wobei S(é) eine nicht-parametrische Schätzfunktion (etwa nach der Kaplan- 
Meier oder Nelson-Aalen-Methode) der Überlebensfunktion ist, sollte daher 


annähernd eine Gerade durch den Ursprung mit Anstieg Eins ergeben. 


Allison (1998) und Blossfeld et al. (1986) raten von der Verwendung von Cox- 
Snell-Residuen bei Cox-Modellen ab, da Abweichungen von der Exponential- 
verteilung vor allem bei kleinen Stichproben teilweise auf Unsicherheiten beim 
Schätzen von 8 und Ao(t) zurückzuführen sind. Auch Klein und Moeschber- 
ger (1997) bemerken, dass die Ergebnisse des graphischen Residuentests mit 
Vorsicht zu interpretieren sind. 


Funktionale Form der kontinuierlichen Kovariablen — 
Martingal-Residuen 


Ein wichtiger Schritt der Modellüberprüfung ist die Überprüfung der Annah- 
me, dass die in das Modell einbezogenen Variablen linear auf die logarithmierte 
Hazardrate 
In[h(£|x)] = In[ho(t)] + x;ß 
wirken, und falls nicht, für welche Transformation f(x) der Kovariablen die 
Linearität des Effektes auf die logarithmierte Hazardrate erreicht werden kann. 
In Frage kommende Transformationen sind beispielsweise ln(x), 2? sowie die 
Indikatorfunktion /z<c., die für x < c den Wert Eins und sonst Null annimmt. 
Untersucht wird also die Beziehung 
k 


In{h(t|x)] = Inlhott)] + $ f(2;)6;. 
j=l 
Eine Möglichkeit, die Form des Effektes einer Kovariablen graphisch zu überprü- 
fen, basiert auf Martingal-Residuen, die (für rechts-zensierte Daten und zeitu- 
nabhängige Kovariablen) definiert sind als: 


M;(00) = 6; — Holt;) xp(x!8)= 5-6, i=1,...,n 
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wobei 6; angibt, ob die i-te Beobachtung rechts-zensiert ist oder nicht. Die 
Residuen haben folgende Eigenschaften: 


1. 22, M;=0 
2. Cov(M,, M;) = 0 für großes n 
3. E(M;) = 0 für großes n 


Martingal-Residuen können als Differenz zwischen den beobachteten und den 
— unter Annahme eines Cox-Modells — erwarteten Ereignissen interpretiert 
werden. 


Um die funktionale Form einer Kovariablen zu überprüfen, schlagen Therneau 
et al. (1990) vor, ein Cox-Modell zu implementieren, das alle Kovariablen aus- 
ser die zu untersuchende enthält, wobei angenommen wird, dass die funktio- 
nale Form der einbezogenen Kovariablen bekannt ist und die zu überprüfende 
Variable unabhängig von den einbezogenen Variablen ist. Auf Basis dieses 
Cox-Modells werden dann die Martingal-Residuen, M;, i = 1,...,n, berechnet. 
Dann werden die Martingal-Residuen gegen die zu untersuchende Kovariable 
aufgetragen, und Therneau et al. zeigen, dass die (etwa mit der LOWESS- 
Methode, siehe Cleveland (1979)) geglätteten Residuen annähernd die funk- 
tionale Form f(x) angeben. Insbesondere zeigt eine annähernd lineare Kurve, 
dass die Kovariable nicht transformiert werden muss, und nicht-lineare Kurven 
können Hinweise geben, welche Transformation passend ist. Werden sowohl die 
individuellen Residuen als auch die Glättungskurve aufgetragen, erhält man 
auch Hinweise, welche Beobachtungen die Schätzung der funktionalen Form 
beeinflussen. Für parametrische Modelle werden die Martingal-Residuen ana- 
log mit M; = 6; — ê; definiert; die Cox-Snell-Residuen é; für parametrische 
Modelle wurden im Abschnitt 5.3 behandelt. 


Grambsch et al. (1995) ergänzen diese Überlegungen und schlagen vor, ein Cox- 
Modell mit allen Kovariablen zu implementieren und auf Basis dieses Modells 
die Martingal-Residuen M; zu berechnen. Diese Residuen werden verwendet, 
um die Cox-Snell-Residuen ê; = 6; — M; zu ermitteln. Sowohl die Werte von 
6; als auch die von ê; werden dann gegen jene Variable aufgetragen, deren 
funktionale Form untersucht wird, und die beiden (etwa mit der LOWESS- 
Methode ermittelten) Glättungsfunktionen smooth(d) und smooth(é) gebil- 
det. Die funktionale Form der zu überprüfenden Kovariablen z; folgt dann 
annähernd folgender Beziehung: 


eh (| a 


smooth(ê) + Bits 
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In Simulationsstudien zeigen die Autoren, dass diese Methode - vor allem 
im Fall von Korrelationen zwischen den Kovariablen — bessere Diagnosen der 
funktionalen Form der betrachteten Kovariablen als das eingangs beschriebene 
Verfahren erlaubt. 


In praktischen Beispielen muss auf die Interpretierbarkeit der gewählten funk- 
tionalen Form geachtet werden. 


Proportionalitätsannahme 


Proportionale Hazards-Modelle verdanken ihren Namen der Eigenschaft, dass 
im Modell ohne zeitabhängige Kovariablen die Hazardrate des j-ten Indivi- 
duums mit Kovariablenvektor x; ein Vielfaches von der Hazardrate des i-ten 
Individuums mit Kovariablenvektor x; ist. Im Abschnitt 6.4 ist das strati- 
fizierte Cox-Modell besprochen worden, das bei Verletzung der Proportiona- 
litätsannahme verwendet werden kann. In diesem Abschnitt werden einige Me- 
thoden vorgestellt, mit denen die Proportionalitätsannahme überprüft werden 
kann. 


Eine populäre Methode ist die Einführung von zeitabhängigen Interaktionsva- 
riablen zwischen der zu überprüfenden zeitunabhängigen Kovariablen und der 
Zeit: 


p p 

h(t|x) = ho(t) exp (Ei + 20) = ho(t) exp ($n F 0b , 

j=1 j=1 
wobei g;(t) geeignete Funktionen in t sind; häufig werden für g(t) die Funktio- 
nen t, In(t) oder It<t verwendet. In diesem Modell kann dann (etwa mit der 
Likelihood-Quotienten-Statistik) getestet werden, ob alle Koeffizienten cj, j = 
1,...,p, gleich Null sind, also die Hypothese Hp : c1 = cg =... = Cp = O gilt 
und somit ein proportionales Modell vorliegt, oder für jeden einzelnen Koefh- 
zienten die Hypothese Ho : c; = 0 (etwa mit der Wald-Teststatistik) überprüft 
werden. 


Ein Nachteil dieser Methode ist, dass verschiedene g(t) zu unterschiedlichen 
Ergebnissen führen können. Einen Anhaltspunkt für die Form von g(t) ge- 
ben die approximierten skalierten Schoenfeld-Residuen, die von Grambsch und 
Therneau (1994) vorgeschlagen wurden: 


i; = mVar(ß)r,, 
wobei m die Anzahl der Ereignisse und f; = (Tj, 7i2,.-., Pip) der Vektor der 
(geschätzten) Schoenfeld-Residuen 


Fik = Ôi(Tik — Er) 
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mit 


jER(ti) 
für das i-te Individuum ist; fig ist missing, falls das Individuum zensiert, also 
6; = O ist, t; ist die Ereigniszeit des ö-ten Individuums, R(t;) ist die Risikomenge 
zu diesem Zeitpunkt und 2; ist der Wert der k-ten Kovariablen des i-ten 
Individuums; %; ist ein Schätzer des erwarteten Werts der Kovariablen z+ für 
ein zufällig aus der Risikomenge R(t;) ausgewähltes Individuum. 


Grambsch und Therneau zeigen, dass für die j-te Kovariable approximativ 
Elr;(t)] = g;(t) 


gilt, und ein Plot der geglätteten Schoenfeldresiduen 7;, gegen t Hinweise gibt, 
ob c; = ist, und falls nicht, welche Form g,(t) besitzt. 


Ein weitere populäre, graphische Methode zur Überprüfung der Proportiona- 
litätsannahme basiert auf der folgenden Beziehung zwischen zwei Individuen 
mit Kovariablenvektoren xm und xX: 


p 
Inf- In S(£|xm)] — In[— In S(¢|x«)] = I Bilzm; — Les) 
j=l 

Um die Proportionalitätsannahme fiir eine Kovariable zu überprüfen, können 
die Daten beispielsweise nach dieser Variablen geschichtet und fiir jede Schicht 
ein proportionales Hazards-Modell in Abhängigkeit von jenen Kovariablen, die 
die Proportionalitätsannahme erfüllen, geschätzt werden. Zeigt ein Plot, dass 
die geschichteten logarithmierten Überlebensfunktionen (unter Berücksichti- 
gung der anderen Kovariablen in Form ihrer Mittelwerte X = 1/n 77, x;) 


In{— In Sj (t|x)] = Inf- In So] + (&ß), 7 =1,...,8, 


annähernd parallel sind, dann ist dies ein Hinweis dafür, dass die Proportio- 
nalitatsannahme fiir die betrachtete Variable erfiillt ist. 


AusreiBer — Deviance-Residuen 


Deviance-Residuen werden verwendet, um Beobachtungen zu identifizieren, de- 
ren Ereigniszeiten vom angepassten Modell nicht gut prognostiziert werden; sie 
sind definiert als: 


D; = sign[M;]{-2[M; + 6; log(6; — MJP 
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Deviance-Residuen sind (im Gegensatz zu den Martingal-Residuen M;) annä- 
hernd symmetrisch um Null verteilt; sie sind negativ für Beobachtungen mit 
längeren Zeitdauern (bis zum Ereignis) als erwartet und positiv für kürzere 
Zeitdauern als erwartet. Klein und Moeschberger (1997) schlagen vor, die 
Residuen D; gegen Di jTi; aufzutragen. Potentielle Ausreißer haben dann 
Deviance-Residuen, deren absolute Werte zu groß sind. 


Mit Residuen in parametrischen und semiparametrischen Ereignisdatenmo- 
dellen und ihrer Anwendung zur Überprüfung verschiedener Aspekte des im- 
plementierten Modells setzen sich beispielsweise Collett (1994) sowie Klein 
und Moeschberger (1997) ausführlich auseinander. Die in diesem Abschnitt 
angeführten Residuen sind für semiparametrische Modelle etwa in SAS und 
S-PLUS implementiert und für parametrische Modelle in S-PLUS. 


83 
Günther Sedlacek - 978-3-631-75405-4 
Downloaded from PubFactory at 01/11/2019 05:23:57AM 
via free access 


Kapitel 7 


Mehr-Zustands- und 
Mehr-Episoden-Modelle 


Die in den bisherigen Kapiteln behandelten Methoden wurden für (kontinuier- 
liche) Modelle mit einem Anfangszustand und einem Endzustand erläutert. In 
diesem Kapitel werden die wichtigsten Grundbegriffe und Methoden auf Mehr- 
Zustands- und Mehr-Episoden-Modelle erweitert, die für die Modellierung von 
Studienverlaufsdaten von Bedeutung sind. 


7.1 Mehr-Zustands-Modelle 


In den vorherigen Kapiteln sind wir davon ausgegangen, dass die Dauer einer 
Episode durch ein bestimmtes Ereignis beendet wird. Bei Studienverlaufsana- 
lysen kann das Studium in den Zuständen “abgebrochen” und “erfolgreich 
abgeschlossen” enden. Zwar können die gleichen Kovariablen wie schulische 
Vorbildung, Familenstatus und Berufstätigkeit die beiden Ereignisse beeinflus- 
sen, jedoch sind die beiden Ereignisse unterschiedlich und erfordern daher die 
Implementierung eines Mehr-Zustands-Modells. In einer Berufsverlaufsstudie 
können etwa die Determinanten für das Ausscheiden aus der ersten Arbeit von 
Interesse sein. Das Ausscheiden aus der Arbeit ist das interessierende Ereig- 
nis, das die Phase des ersten Jobs beendet. Es ist jedoch zu vermuten, dass 
unterschiedliche Determinanten dafür verantwortlich sind, ob der Arbeitneh- 
mer freiwillig kündigt oder entlassen wird. Der Berufsausstieg kann somit im 
Zustand “entlassen” oder “freiwillig ausgeschieden” enden, und zur Analyse 
von ereignisspezifischen Determinanten ist ein Mehr-Zustands-Modell zu im- 
plementieren. 
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Mehr-Zustands-Modelle werden in der Literatur in zwei ideal-typischen Situa- 
tionen unterschieden: 


Typ I-Situation: Diese Situation tritt auf, wenn das Eintreffen eines Ereig- 
nisses — unabhängig von seinem Typ - von einem kausalen Prozess bestimmt 
wird, und sobald das Ereignis eingetroffen ist, bestimmt ein zweiter, dem 
ersten nachfolgender Prozess, welcher Art die Entscheidung sein wird. 


Die Typ I-Situation ist etwa bei Kaufentscheidungen valid; im ersten Schritt 
wird entschieden, ob man sich überhaupt ein Auto kaufen möchte, und in 
einem weiteren Schritt, nachdem man sich über den Kauf eines Autos sicher 
ist, wird man sich für eine bestimmte Marke entscheiden. 


In diesen Fällen wird im ersten Schritt ein Hazards-Modell — mit den Metho- 
den aus den vorangegangen Kapiteln - implementiert. Im zweiten Schritt 
werden die bedingten Wahrscheinlichkeiten für eine bestimmte Entschei- 
dung in Form eines Logit- oder Probit-Modells modelliert. 


Hachen (1988) erklärt, dass die Modellierung einer Typ I-Situation dann 
passend ist, wenn zu erwarten ist, dass die Faktoren für eine Entscheidung 
im ersten Schritt (Kaufentscheidung) invariant gegenüber Änderungen in 
der Entscheidung im zweiten Schritt (Typ des Autos) sind, das heißt, falls 
die Parameterschätzer 8j, j = 1,...,p, im Hazards-Modell unverändert ge- 
genüber Änderungen in den bedingten Wahrscheinlichkeiten für eine be- 
stimmte Ereignisart bleiben. Eine Änderung in den bedingten Wahrschein- 
lichkeiten für den Kauf bestimmter Automarken kann etwa durch den Kon- 
kurs oder durch besondere Werbemaßnahmen einer Firma eintreten. 


Typ II-Situation: Diese Situation ist gegeben, falls unterschiedliche kausale 
Prozesse zum Eintreffen der verschiedenen Ereignisse führen. Die Hazar- 
draten werden im Gegensatz zur Typ I-Situation getrennt für die unter- 
schiedlichen Ereignisse modelliert. Es können zwar für die einzelnen Ha- 
zardraten die gleichen p Kovariablen relevant sein, jedoch wird angenom- 
men, dass die Parameterschätzer y, l = 1,...,p,7 = 1,...,m, für die m 
übergangsspezifischen Modelle voneinander unabhängig sind. Änderungen 
in den bedingten Wahrscheinlichkeiten für einen Ereignistyp lassen die De- 
terminanten in den ereignisspezifischen Modellen, somit die Parameterschät- 
zer yj, l = 1,...,p,j = 1,...,m, unverändert. Werden etwa die Ursachen 
für unterschiedliche Ausfallsarten von Maschinen untersucht, so erscheint 
es plausibel, dass es unabhängige Ausfallsarten gibt, sodass die Beseitigung 
einer Ausfallsart keinerlei Konsequenzen auf die Ausfallsrate der anderen 
Ausfallsart hat. 
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Diese Problemstellung entspricht dem häufig verwendeten competing risks- 
Modell, mit dem wir uns aufgrund seiner Bedeutung für Studienverlaufs- 
analysen in diesem Abschnitt näher auseinandersetzen wollen. 


Competing Risks 


Es sei Y eine zufällige Zustandsvariable, die Werte aus der Menge der möglichen 
Endzustände {1,...,m} in einem competing risks-Modell annehmen kann, 
dann lässt sich die übergangsspezifische Hazardrate in den j-ten Zustand unter 
Berücksichtigung von Kovariablen folgendermaßen definieren: 


1 
h;(t|x) = jim A Pt <T<t+At,Y =3j|T > t,x) 


Die Gesamthazardrate zum Zeitpunkt t ist 
m 
h(t|x) = $` h;(t|x). 
j=l 
Es ist zwar möglich, eine übergangsspezifische Uberlebensfunktion mit 


S;(t|x) = exp (- [ hz(ulx)du) 


zu formulieren, jedoch hat diese Funktion keine Interpretation einer Überlebens- 
funktion, da sie nicht die Wahrscheinlichkeit angibt, einen Zeitpunkt überlebt 
zu haben. Die Funktion S; wird daher in der Literatur meist als Pseudo- 
Überlebensfunktion bezeichnet; sie wird einerseits für graphischen Modellüber- 
prüfungen und andererseits zur Ermittlung der folgend definierten Größen ver- 
wendet. 


Die Definition der (gemeinsamen) “übergangsspezifischen Dichte” 


en: A 
F;(tlx) iim, Aye tt <T <t+At,Y = j|x) 


h,(tlx)S (thx) = hy (thx) I S;(tjx) 


wird zur Berechnung der Wahrscheinlichkeit eines Übergangs in den j-ten End- 
zustand (bei gegebenem zeitunabhängigem Kovariablenvektor) benötigt: 


n(x) = | fy(the)dt = PY = jlx) (7.1) 
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und 


S(x) = 1; 


Mit 7.1 können etwa Studienabbruch-Wahrscheinlichkeiten eines Jahrgangs 
bzw. bestimmter Teilpopulationen geschätzt werden. Die bedingte erwartete 
Dauer (bei gegebenem zeitunabhängigem Kovariablenvektor) bis zum Übergang 
in den j-ten Endzustand wird mit 


yf, 1 
Ey(TIx) = BIT = 5x) = | togh Eod (7.2) 


berechnet. Ausführlich werden die eben angeführten Beziehungen in Lancaster 
(1990) und Lawless (1982) diskutiert. 


Zur Schätzung der “übergangsspezifischen Parameter” 9,1 = 1,...,p, j = 
1,...,m, wird wieder die Maximierung der (partiellen) Likelihood Funktion 
verwendet. Unter der Annahme, dass die Ereigniszeiten der verschiedenen Er- 
eignisarten (und die Zensierungszeiten) bedingt unabhängig sind, lässt sich die 
Likelihoodfunktion für das Mehr-Zustands-Modell anschreiben zu 


L = TL [Iili exp (- f" hy(ulas)au) (7.3) 


i=1j=1 


wobei 


5.. = 1 wenn das i-te Individuum zum Zeitpunkt t; das Ereignis j hat 
I 10 sonst. 


Interpretiert man in Ein-Zustands-Modellen die Zensierung als zweite Freig- 
nisart, so entspricht (5.6) genau (7.3) für zwei Zustände (m = 2). Ist die Typ 
II-Situation gegeben, das heißt, dass die übergangsspezifischen Hazardraten 
h;(t|x) von Parametervektoren 8,,5 =1,...,m, abhängen, die keine Kompo- 
nenten gemeinsam haben, kann jede Likelihoodfunktion 


Ly = Tihle] exp (— f" hslulxa)du) (7.4) 


i=1 


getrennt maximiert und damit alle in den vorangegangenen Abschnitten be- 
handelten Methoden fiir Modelle mit einem Endzustand verwendet werden. In 
einem Cox-Modell ergeben sich unter Berücksichtigung von (zeitabhängigen) 
Kovariablen etwa die iibergangsspezifischen Hazardraten 


hs[t}x(t)] = hoj(t) exp(x'(t)8;) j =1,...,m. 
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Die Likelihood-Funktion (7.3) muss simultan maximiert werden, falls die An- 
nahme von Parameterrestriktionen wie etwa die Annahme von proportionalen 
Basis-Hazardraten 


ho;(t) = holt) exp(do;) 3=1,...,m 


oder von gleichen Regressionskoeffizienten 6n = ... = Bim gerechtfertigt ist. 
Die simultane Maximierung ist etwa in TDA möglich. 


Die Maximierung von (7.4) entspricht genau der Maximierung von (5.6), wo- 
bei alle vom zu analysierenden Ereignis verschiedenen Ereignisse als (nicht- 
informativ bzw. bedingt unabhängig) zensierte Fälle interpretiert werden kön- 
nen. Ist die Annahme von bedingt unabhängigen Ereignissen erfüllt, spricht 
man von (bedingt) unabhängigen competing risks. Es wird in diesem Modell 
somit angenommen, dass Individuen, die ein besonders hohes (oder niedri- 
ges) Risiko für das zu analysierende Ereignis haben, weder mehr noch weniger 
gefährdet für irgendein anderes Ereignis als andere Individuen sind — bedingt 
unter den einbezogenen Kovariablen. 


Hachen (1988) und Prentice und Kalbfleisch (1979) erklären, dass bei Verlet- 
zung dieser Annahme die Parameterschätzer nur unter den gegebenen Studien- 
bedingungen valide sind und auch entsprechend interpretiert werden müssen. 
Ist die Annahme von bedingt unabhängigen Ereignissen verletzt, dann führen 
Veränderungen in der bedingten Wahrscheinlichkeit eines Ereignisses zu verän- 
derten Parameterschätzern für die anderen Ereignisarten. 


Im Fall von Studienverlaufsanalysen mit den Endzuständen “abgebrochen” 
und “erfolgreich abgeschlossen” eignet sich die Modellierung eines competing 
risks-Modells; siehe Booth und Satchell (1995). Die Parameterschätzer sind 
jedoch mit etwas Vorsicht zu interpretieren, da — auch nach Einbeziehung von 
Kovariablen, von denen vermutet werden kann, dass sie beide Ereignisse be- 
einflussen (wie etwa die Erwerbstätigkeit und die schulische Vorbildung) - 
nicht unbedingt von (bedingt) unabhängigen Ereignissen “Studienabbruch” 
und “Studienabschluss” ausgegangen werden kann. Es liegt etwa die Ver- 
mutung nahe, dass Studienabbrecher eher länger für das Studium gebraucht 
hätten und diese Abhängigkeit nicht restlos von den einbezogenen Kovariablen 
erklärt wird. Eine Verletzung dieser Annahme bei Analysen der Studiendau- 
er bis zum erfolgreichen Studienabschluss bedeutet, dass eine Änderung der 
Studienabbruch-Wahrscheinlichkeit eine Änderung der Parameterschätzer im 
Modell für den Studienabschluss zur Folge hätte. 


Modelle, die die Abhängigkeit von Ereignisarten berücksichtigen, haben in 
praktischen Anwendungen bisher kaum Verwendung gefunden; siehe Allison 
(1998). 
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Um einen Eindruck davon zu bekommen, wie sensitiv die Parameterschätzer 
auf Änderungen der Hazardraten der anderen Ereignisse reagieren, schlägt Al- 
lison (1998) Sensitivitätsanalyse vor, in der das Modell unter zwei Extreman- 
nahmen nochmals geschätzt wird. Der erste Extremfall geht von der Annahme 
aus, dass die (durch ein anderes als das zu analysierende Ereignis) zensierten 
Fälle solche Individuen sind, die sonst eine sehr lange Verweildauer hätten. 
Ihre Zensierungszeit wird in diesem Fall mit der maximalen beobachteten Zen- 
sierungszeit gleich gesetzt. Der zweite Fall geht von der Annahme aus, dass 
die zensierten Fälle ansonsten unmittelbar nach der Zensierung das betrachte- 
te Ereignis gehabt hätten. Ihre eigentliche Zensierungszeit wird in diesem Fall 
in eine Ereigniszeit umgewandelt. Erhält man bei der Schätzung der beiden 
Extremfälle ähnliche Parameterschätzer (und damit Interpretation der einbe- 
zogenen Kovariablen) wie im Ausgangsmodell, so kann der Annahme von be- 
dingt unabhängigen Ereignissen vertraut werden. Je nach Analyse scheint es 
manchmal nur sinnvoll, einen der beiden Extremfälle zu überprüfen. Bei Studi- 
enverlaufsanalysen macht etwa nur die Implementierung des ersten Falls Sinn, 
da Studienabbrecher mit Sicherheit nicht unmittelbar vor Studienabschluss ihr 
Studium abbrechen. 


Um zu überprüfen, ob sich die ereignisspezifischen Parameter tatsächlich für 
die verschiedenen Ereignisarten unterscheiden, kann die Hypothese 8, = 8 
für alle 7 = 1,...,m mit Hilfe eines Likelihood-Quotienten-Tests überprüft 
werden. Zur Ermittlung der Likelihood-Quotienten-Teststatistik wird ein Ein- 
Zustands-Modell geschätzt, das alle Ereignisarten gleich behandelt, und dann 
der Wert der logarithmierten Likelihoodfunktion /(@) ermittelt. Danach wird 
die Summe der logarithmierten Werte !(8,) der getrennt maximierten Like- 
lihoodfunktionen (7.4) berechnet und die Teststatistik 


= 2[1(8) - LG) 


ermittelt. Diese Teststatistik ist dann x?(mp — p) verteilt. 


Zur Überprüfung der Annahme, dass die Regressionskoeffizienten einer Kova- 
riablen in zwei ereignisspezifischen Modellen gleich sind, Ho : G1; = 612, kann 
die Wald-Teststatistik \ ` 

(B11 — Pı2)? 


Var (11) + Var(By2) 
verwendet werden, die x?(1) verteilt ist. 


Competing risks-Modelle behandeln unter anderem Allison (1984), Blossfeld 
et al. (1986), Hachen (1988), Prentice und Kalbfleisch (1979), Prentice et al. 
(1978) und Vermunt (1997) ausführlich. 
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7.2 Erweiterung der Mehr-Zustands-Modelle 
auf den Mehr-Episoden-Fall 


In diesem Abschnitt werden die Methoden für die Mehr-Zustands-Modelle auf 
den Fall von mehreren Episoden erweitert. Mit (Tk, Jk), k = 1,2,..., werden 
Ereigniszeit und Art des Ereignisses, das die k-te Episode beendet, bezeichnet. 
Da die zufälligen Ereigniszeiten vom Beginn der Beobachtungsperiode gemes- 
sen werden, gilt 0 = To < Ti < TR <... 


Es sei Y, eine zufällige Zustandsvariable, die Werte aus der Menge der mögli- 
chen Endzustände {1,..., m} der k-ten Episode in einem Mehr-Zustands- 
Modell annehmen kann, dann wird die übergangsspezifische Hazardrate der 
k-ten Episode in den j-ten Zustand in Abhängigkeit von der Dauer t seit Pro- 
zessbeginn folgendermaßen definiert: 


1 
hË (t|Xx, Hp) = ii 0 rat < Tk < t+ At, Yk = Tr > t, Ay-1, Xk); (7.5) 
wobei x; den Kovariablenvektor der k-ten Episode bezeichnet und in H;_, die 
Vorgeschichte des Prozessverlaufs bis zum Zeitpunkt t,_; zusammengefasst 
wird, also 


Ak-ı = {yo, ti, Y1, X1, wey bk—-1) Yk—-1) Xk-1}- 


Es sei hier angemerkt, dass die Hazardrate fiir den Mehr-Zustands- und Mehr- 
Episoden-Fall sowie die zu den Kovariablen gehörigen Parameter in der Li- 
teratur gelegentlich explizit in Abhängigkeit vom Ausgangszustand der k-ten 
Episode %,_ı formuliert werden, während in der Darstellung (7.5) der Zustand 
y«-ı in der Vorgeschichte H,_ı enthalten ist; siehe etwa Vermunt (1997). 


Für nicht existierende (k, j)-Kombinationen und für t < t-ı ist hf(.) = 0. 
Da für die Schätzung der Parameter der übergangsspezifischen Hazardrate 
hi(.) nur jene Individuen herangezogen werden, die sich in der k-ten Episode 
befinden (und somit schon k — 1 Ereignisse erlebt haben), spricht man im Falle 
von (7.5) auch von einer bedingten Hazardrate. 


Sei U; = Tk -T;.-ı die Dauer in der k-ten Episode bis zum Eintreffen des k-ten 
Ereignisses, dann ist 


te, tl , 
hf (ulxe, Hk«-ı) = lim ru < Uk < u + Au, Yp = j|Uk > u, Hk-1, Xx) 
die übergangsspezifische Hazardrate der k-ten Episode in Abhängigkeit von 
der Episodendauer. 
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Die Gesamthazardrate h*(t|xx, H;_ı), in der k-ten Episode den Zustand y,_; 
zu verlassen, erhält man mit 


h*(tixk, H;-ı) = > hf (t|x, Hx-ı). (7.6) 
j=l 


Die Uberlebensfunktion im Mehr-Episoden- und Mehr-Zustands-Fall gibt die 
Wahrscheinlichkeit an, ausgehend vom Zustand y,_, den Zeitpunkt t zu überle- 
ben, das heißt, dass bis zu diesem Zeitpunkt der k-te Übergang noch nicht 
stattgefunden hat. Es gilt für t > t,_1 


SĂ(t|Xk, H,-ı) = P(T, > t|Xk, Hx-ı) 


t 
exp -/ h! (ulx,, Hr_ı)du 
tk-1 


und mit (7.6) ist 


S*(tlxe, Hy-1) 


a|- [ Sa (u|x,, Hk- a 


tk-1 j=1 


Î] =|- [ E hi (upes Ha) 


j=1 


Die “übergangsspezifische Dichtefunktion” der k-ten Episode erhält man zu 


fF (txe, Hr-ı) = Jim A; Plt < < Tk < t+ At, Yp = j|x, Hk-ı) 


hë (t|xx, Hx-1)S*(t|xx, Ax-ı)- 


Die Parameterschätzer werden unter der Annahme von bedingt unabhängigen 
Ereignisarten (und Zensierungszeiten) durch Maximierung der Likelihood-Funk- 
tion für den Mehr-Zustands- und Mehr-Episoden-Fall erhalten: 


L=]] 11 L(A inl ies, x) [99 (til Hi-ı, Xie) | (7.7) 


k j=li=1 
mit 


1 falls die k — te Episode von Individuum i 
Ok; zum Zeitpunkt tip im Zustand j endet 
0 sonst 
1 falls Individuum i die k-te Episode überlebt 
ee sonst 
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Details zur Herleitung der Likelihood-Funktion sind beispielsweise in Blossfeld 
et al. (1986) oder Hamerle (1989) zu finden. 


Die Überlebensfunktion, die übergangsspezifische Dichtefunktion der k-ten 
Episode und die Likelihoodfunktion können auch in Abhängigkeit der Epi- 
sodendauer u = tk — tk _ı angeschrieben werden. 


Die Likelihood-Funktion (7.7) kann getrennt für jeden (k, j)-Übergang maxi- 
miert werden, wenn die Hazardraten hf(.) von Parametervektoren pË abhängen, 
die keine Komponenten gemeinsam haben. Zur Analyse der k-ten Episode wer- 
den nur jene Individuen herangezogen, die die Ereignisse 1, 2,...,k— 1 bereits 
erlebt haben. Diese Individuen gehen im Fall der Modellierung in Abhängigkeit 
von der Dauer t seit Prozessbeginn als links abgeschnittene Beobachtungen in 
die Schätzung ein, denn es ist für jedes Individuum in der k-ten Episode be- 
kannt, dass es den Zeitpunkt t;_,, den Beginn der k-ten Episode, überlebt 
hat; siehe Abschnitt 3.2. In der k-Episode selbst werden die vom interessie- 
renden Endzustand verschiedenen Ereignisarten analog zu Abschnitt 7.1 als 
rechts-zensierte Daten behandelt. 


Zur Modellierung der Hazardraten hf(.) kommen dann die in den vergangenen 
Abschnitten diskutierten Ansätze in Frage, für das Cox-Modell (in Abhängigkeit 
der Dauer t seit Prozessbeginn) beispielsweise 


hj (t|Hr-1, xx) = ho, (t) exp(x,95), 


wobei der relevante Teil der Vorgeschichte H,_, in den aktuellen Kovariablen- 
vektor x; aufgenommen wird. 


Bei der getrennten Maximierung der Hazardraten hf (.) wird davon ausge- 
gangen, dass die Parametervektoren p episoden- und übergangsspezifisch 
sind und mit anderen (k, j)-Übergängen keine Komponenten gemeinsam ha- 
ben. Besteht etwa die Annahme, dass manche Komponenten der Vektoren p} 
für verschiedene Episoden und Übergänge gleich sind, muss die Likelihood- 
funktion simultan maximiert werden, etwa mit TDA. Im Fall von wieder- 
holten Ereignissen (zum Beispiel Berufsepisoden) ist es manchmal sinnvoll, 
das Mehr-Episoden-Modell so weit einzuschränken, dass für alle k Episoden 
B! = B =... = P* und Ad(t) = A2(t) = ... = hk(t) gilt. Diese Ein- 
schränkungen entsprechen dem Fall, dass die Episoden jedes Individuums als 
eigene unabhängige Beobachtungen in das Modell eingehen, wobei die Be- 
obachtungen in späteren Episoden als links abgeschnittene Fälle in das Mo- 
dell einbezogen werden. Werden die Hazardraten in den jeweiligen Episoden 
nicht in Abhängigkeit von der Zeit t seit Prozessbeginn modelliert, sondern in 
Abhängigkeit von der Episodendauer t —t,_1, so entspricht dies exakt der Mo- 
dellierung im Ein-Episodenmodell, wobei jede Episode eines Individuums als 
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eigene unabhängige Beobachtung in das Modell eingeht. Die Annahme, dass 
die Episoden eines Individuums wie unabhängige Beobachtungen behandelt 
werden können, ist jedoch in vielen Fällen nicht gerechtfertigt. In diesem Fall 
führt dieses Modell zu verzerrten Schätzern und verzerrten Standardfehlern. 
Blossfeld et al. (1986) verwenden beispielsweise diese Modellierung zur Analyse 
von Berufsepisoden. 


Häufig implementierte Spezialfälle der allgemeinen Hazardfunktion (7.5) sind 
progressive Mehr-Zustands und Mehr-Episoden-Modelle sowie (heterogene) 
Markov- und Semi-Markov-Modelle. Im progressiven Modell haben die Episo- 
den eine eindeutige Reihenfolge und ein Individuum kann jeden weiteren Zu- 
stand nur dann erreichen, wenn es sich gerade im der Reihenfolge entsprechen- 
den Zustand “davor” befindet. Somit beinhaltet die Information über den der- 
zeitigen Zustand automatisch die Information, welche und wieviele Zustände 
in welcher Reihenfolge vor dem jetzigen Zustand durchlaufen worden sind. 
Die Modellierung vereinfacht sich, da in H,_ı diese Information nicht mehr 
inkludiert werden muss. Der Ausgangszustand der k-ten Episode ist etwa au- 
tomatisch bekannt. Die Phasen eines Studiums, wo beispielsweise der zweite 
Abschnitt nur nach Absolvierung des ersten Abschnitts abgeschlossen wer- 
den kann, oder die Karriereleiter in einer Firma sind Beispiele für progressive 
Mehr-Episoden-Modelle. 


Im Markov-Modell wird angenommen, dass die Hazardrate für einen Übergang 
vom Zustand l in den Zustand j nicht von der Vergangenheit H,-ı und nicht 
von der Nummer der Episode abhängt. Beim stationären Modell wird zusätzlich 
angenommen, dass die Hazardrate nicht von der Dauer t seit Prozessbeginn 
abhängt. 


Semi-Markov-Modelle erlauben in Erweiterung des Markov-Modells noch, dass 
die Hazardrate für einen Übergang vom Zustand l in den Zustand j auch 
vom Zeitpunkt t; des letzten Übergangs abhängen kann. Im Gegensatz zum 
Markov-Modell kann das Semi-Markov-Modell auch in Abhängigkeit von der 
Verweildauer U* = U* — U*—! in der Episode angeschrieben werden. Bei Stu- 
dienverlaufsanalysen bedeutet das, dass in Semi-Markov-Modellen die gesam- 
te Studiendauer auch von der Dauer des ersten Abschnitts (Zeitpunkt des 
Übergangs vom ersten in den zweiten Studienabschnitt) abhängen kann. 


Wei et al. (1989) schlagen als Alternative zu Modell (7.5) vor, die Hazardrate 
für das Eintreffen des k-ten Ereignisses wie Ein-Episoden-Modelle zu behan- 
deln, also die marginale Hazardrate 

1 
m. <T <t+Aôt, Yk = j|Tx > t,x) 


zu modellieren. Bei diesem Modell wird auf die Information verzichtet, dass 


k _ . 
hy (t)x) = en 
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Individuen, die zum Zeitpunkt ¢ noch nicht in der k-ten Episode sind, nicht zur 
Risikomenge R(t) für das k-te Ereignis gehören. In ihrer Arbeit präsentieren 
die Autoren einen robusten Schätzer für die Varianz-Kovarianzmatrix der er- 
haltenen Parameterschätzer 8 , der Abhängigkeiten zwischen den Ereigniszei- 
ten jedes Individuums erlaubt. Mit Hilfe dieses Schätzers können dann etwa 
Tests über die Gleichheit von Regressionskoeffizienten bi = ae = chm = 
1,...,p,j =1...,m, durchgeführt werden und bei Annahme dieser Hypothese 
der für alle Episoden gleiche Parameter Ø; geschätzt werden; siehe Wei et al. 
(1989), Allison (1998), Therneau (1997) und Oakes (1997). Die Anwendung 
dieser Methoden wird beispielsweise in SAS ermöglicht. 


Mit (bedingten) Mehr-Zustands- und Mehr-Episoden-Modellen setzen sich un- 
ter anderem Kalbfleisch und Prentice (1980), Prentice et al. (1981), Blossfeld 
et al. (1986), Hamerle (1989), Hougaard (1999b) sowie Vermunt (1997) aus- 
einander. 
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Kapitel 8 


Diskrete Ereignisdatenmodelle 


Im Abschnitt 6.2 wurde auch auf die partielle Likelihoodschätzung für den 
Fall eingegangen, dass mehrerer Ereignisse auf einen Zeitpunkt fallen — man 
spricht in diesem Fall von Bindungen. Ist die Anzahl von Ereignissen an glei- 
chen Zeitpunkten sehr groß, weil die Messungen unpräzise sind oder die Er- 
eignisse tatsächlich nur an diskreten Zeitpunkten eintreffen können, wird der 
Rechenaufwand für die Schätzung dieser Modelle sehr hoch. In diesen Fällen 
ist es geeigneter, diskrete Ereignisdatenmodelle zu implementieren. Ist etwa 
im Fall von Studienverlaufsanalysen nur das Semester des Abschlusses bzw. 
des Abbruchs bekannt, so empfiehlt sich die Implementierung von diskreten 
Ereignisdatenmodellen. 


Bei der diskreten Modellierung von Ereignisdaten wird angenommen, dass T 
eine diskrete Zufallsvariable ist, die die Dauer bis zum Eintreffen eines Ereig- 
nisses repräsentiert. Die Zeitachse wird in diskrete Zeitpunkte tı < tg <... 
unterteilt. Im Falle von “echten” diskreten Ereignis- bzw. Zensierungszeitpunk- 
ten bedeutet T = t,, dass das Ereignis zum Zeitpunkt tı eingetroffen ist; bei 
unpräzisen Messungen bedeutet T = tı, dass das Ereignis im Intervall [t;_1, tı) 
eingetroffen ist. Dann ist die Wahrscheinlichkeit, dass ein Ereignis zum Zeit- 
punkt t; (bzw. im Intervall l-ten Intervall [t;_1, t;)) eintrifft, gegeben mit 


J = PT =i) 


Die Uberlebensfunktion $(t;), die die Wahrscheinlichkeit angibt, dass das Er- 
eignis nach dem Zeitpunkt tı bzw. nach dem l-ten Intervall eintrifft, ist 
S(t) = P(T >t) = >> f(t). 
j>l 
Es sei hier angemerkt, dass manche Autoren wie etwa Hamerle und Tutz (1989) 
die Überlebensfunktion mit S(t) = P(T > t) definieren. 
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Die Hazardrate zum Zeitpunkt t; ist gegeben mit 


F(t) 
S(t-ı) 
Im Falle von diskreten Modellen ist die Hazardrate somit die bedingte Wahr- 
scheinlichkeit, dass ein Individuum zum Zeitpunkt t; bzw. im l-ten Zeitintervall 
ein Ereignis erlebt, gegeben, dass für das Individuum nicht vor dem Zeitpunkt 
tı bzw. vor dem l-ten Intervall das Ereignis schon eingetroffen ist. Mit 


At) = S(ti-1) — S(t;) =1- S(t) 


S(ti-1) S(t-ı) 
erhalten wir die folgenden Beziehungen zwischen Überlebensfunktion, Hazar- 
drate und Ereigniswahrscheinlichkeit: 
l 


Alti) = P(T = tT > tı) = 


S(t) = [[D-—AG)] 
k=1 
f(t) = Altı)S(ti-ı) = Altı) In — Altk)] 
k=l 


Um den Einfluss von erhobenen Kovariablen zu ermitteln, wird wieder die 
Hazardrate in Abhängigkeit von den Kovariablen modelliert. 


8.1 Logistisches- und gruppiertes Cox-Modell 


Im Falle von “echten” diskreten Ereigniszeitpunkten (Gehaltsauszahlungen in 
einem Unternehmen erfolgen jeden Monat zum gleichen Zeitpunkt) wird häufig 
das logistische Modell, das von Cox (1972) vorgeschlagen worden ist, gewählt: 


Afti|x(t)] 
In l: = a) = œ + x(t) B (8.1) 
Das Modell (8.1) ist hier in verallgemeinerter Form angeschrieben, die auch 
die Einbeziehung von zeitveränderlichen Variablen erlaubt. Im Falle von zeit- 
konstanten Kovariablen gilt, dass die Werte der Kovariablen zu allen diskre- 
ten Zeitpunkten t; gleich sind. Zeitabhängige Variablen können analog zu Ab- 
schnitt 6.3 unterschiedlich definiert und in das Modell integriert werden; siehe 
auch Hamerle und Tutz (1989). 


Die Hazardrate für dieses Modell, die bei diskreten Modellen eine bedingte 
Wahrscheinlichkeit ist, erhält man zu 


Atılx(a)] = P(T = tılT > ty, 2(t))) = een 
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Das logistische Modell spezifiziert In[(P/1 — P)] als lineare Funktion der Ko- 
variablen. Das Verhältnis P/(1 — P) wird im Englischen odds genannt; der 
gleiche Begriff wird in Ermangelung eines deutschen Wortes auch meist in der 
deutschsprachigen Literatur gebraucht. Die odds sind eine andere Skalierung 
für die Wahrscheinlichkeit P. Während für diese 0 < P < 1 gilt, sind die odds 
Zahlen aus [0, oo). 


Die Kovariablen im Modell (8.1) haben die Interpretation, dass unter Kontrol- 
lierung aller anderen Kovariablen eine Erhöhung von z;, j = 1,...,p, um eine 
Einheit die log-odds für das Eintreffen eines Ereignisses um 6; bzw. die odds 
um 100(exp(f;) — 1)% verändert. 


Sind alle Kovariablen konstant über die Zeit, dann bezeichnet man das Modell 
(8.1) als proportionales odds-Modell, da die odds von einem Individuum ein 
Vielfaches der odds eines anderen Individuums sind. In dieser Hinsicht ist das 
logistische Modell dem in den Kapiteln 5 und 6 behandelten proportionalen 
Hazards-Modellen, in denen die Hazardraten von Individuen mit unterschied- 
lichen Ausprägungen der Kovariablen proportional zueinander sind und das 
Verhältnis der Hazardraten somit unabhängig von der Zeit ist, ähnlich. Das 
Einbeziehen von zeitveränderlichen Variablen führt zu einem nicht proportio- 
nalen odds-Modell. 


Die Parameter a, repräsentieren ähnlich wie im semiparametrischen Cox-Modell 
bei stetig gemessener Zeit eine Grund-Hazardrate ohne Berücksichtigung der 
Kovariablen, die allen Individuen gemeinsam ist. Im Unterschied zum Cox- 
Modell wird das Modell (8.1) mit der ML-Methode geschätzt und werden daher 
explizite Schätzer für a, ermöglicht. Manchmal ist es sinnvoll, die Parameter 
a, die die Effekte der Zeit auf die odds für ein Ereignis modellieren, näher zu 
spezifizieren. Die Parameter a, werden häufig ersetzt durch: (a) at; (lineare 
Effekte der Zeit auf die log-odds), (b) œln t, oder (c) at?. 


Wie erwähnt wird im diskreten logistischen Modell davon ausgegangen, dass 
die Ereignisse nur an diskreten Zeitpunkten eintreffen können. In vielen An- 
wendungen hingegen liegt eine stetige Verweildauer zugrunde, aufgrund von 
unpräzisen Messungen fällt jedoch eine große Anzahl von Ereignissen auf die 
gleichen Zeitpunkte. Wird etwa die Studiendauer in Semestern gemessen, fallen 
viele Abschlüsse bzw. Abbrüche in ein Semester. 


In diesem Fall wird häufig das Cox-Modell für stetige Verweildauern zugrun- 
de gelegt und die Daten in Intervallen gruppiert. Daraus resultiert das (unter 
Berücksichtigung der Einbeziehung von zeitabhängigen Variablen verallgemei- 
nert formulierte) gruppierte Cox-Modell: 


In{—In(1 — Afty|x(t,)]} = u + x(t)’, (8.2) 
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wobei die Parameter a; wieder die Grund-Hazardrate repräsentieren. Wird 
beispielsweise a; = at, gesetzt, so wird ein Gompertz-Modell geschätzt und 
bei a; = alntı ein Weibull-Modell mit gruppierten Daten. Die Parameter 8 
bleiben bei der Diskretisierung unverändert gegenüber dem zugrundeliegenden 
proportionalen Hazards-Modell. Das bedeutet nicht, dass man für die beiden 
Modelle die gleichen Werte für die Parameterschätzer erhält, sondern dass 
beide Modelle die gleichen zugrundeliegenden Parameter schätzen und die Pa- 
rameterschätzer direkt vergleichbar sind und die gleiche Interpretation haben. 


Für die diskrete Hazardrate erhält man 
A(ti|x(t1)] = 1 — exp [— exp (m + x(t;)'B)]. 


Während für das zugrundeliegende Cox-Modell (mit zeitkonstanten Kovaria- 
blen) die Eigenschaft der proportionalen Hazards vorliegt, gilt diese Eigen- 
schaft fiir das gruppierte Cox-Modell nicht mehr. Die Proportionalitat der lo- 
garithmierten Überlebensfunktionen überträgt sich jedoch auf das gruppierte 
Cox-Modell: 

In S (tlx) 


In S(ti|x;) = exp[(x — x5] 2] 


8.2 Maximum-Likelihood-Schätzung 


Diskrete Modelle werden im Allgemeinen mit der ML-Methode geschätzt. Un- 
ter der Annahme, dass der Zensierungsmechanismus bedingt unabhängig ist, 
trägt analog zu den stetigen Modellen ein Individuum, das ein Ereignis er- 
lebt hat, mit f(tı|x) und ein rechts-zensiertes Individuum mit S(t,|x) zur 
Likelihood-Funktion bei. Mit 


Flux) = (tax) Tin- N ae IN - Abo) 


und t, als jenen Zeitpunkt (bzw. [t),-1, tų) als jenes Zeitintervall), an dem für 
das i-te Individuum das Ereignis eingetroffen ist, erhalten wir für die Like- 
lihoodfunktion 


L= I (e) In - Mtb 


Alt, |x;) k=1 


wobei 6; der Zensierungsindikator ist. Wird mit y; ein Vektor bezeichnet, der 
l; Indikator-Variablen enthält, die den Wert 1 annehmen, falls das i-te Indivi- 
duum in T = t, eine Ereignis erlebt, und sonst 0 sind — somit sind die ersten 
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l; — 1 Elemente von y; gleich Null und das letzte Element gleich dem Wert des 
Zensierungsindikators 6; — dann lässt sich die Likelihood-Funktion anschreiben 


N l Altı,|x;) Yik 
b= TEL (e) EA 
Diese Likelihood-Funktion entspricht der Likelihood-Funktion für Regressions- 
modelle mit binären Responsevariablen - mit dem Unterschied, dass ein Indivi- 
duum in diese Likelihood-Funktion nicht mit einer Beobachtung sondern mit L; 
Beobachtungen eingeht. Somit können diskrete Ereignisdatenmodelle mit Hilfe 
der gängigen Software für logistische Regressionsmodelle geschätzt werden. Für 
diesen Zweck wird der Datensatz des 7-ten Individuums analog zum stückweise 
konstanten Hazards-Modell aus Abschnitt (5.4) in l; Datensätze unterteilt, die 
als eigenständige Beobachtungen in die Schätzung eingehen. Zeitveränderliche 
Variablen können wieder insofern leicht implementiert werden, indem sie zu 
jedem diskreten Zeitpunkt t; (bzw. zu Beginn jedes Zeitintervalls [t;_ı, t;)) ak- 
tualisiert werden. 


Ausführlich diskutieren Hamerle und Tutz (1989) diskrete Modelle zur Ana- 
lyse von Verweildauern; unter anderem wird auch die Erweiterung auf den 
Mehr-Zustands- und Mehr-Episoden-Fall behandelt. Diese Erweiterung lässt 
sich analog zu Kapitel 7 auch für diskrete Modelle formulieren. Weiters setzen 
sich beispielsweise Allison (1982), Allison (1998), Vermunt (1997) und Yama- 
guchi (1991) mit diskreten Modellen auseinander. 
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Teil B 
Empirische Analyse der 
Studiendauer und des 
Studienabbruch-Risikos am 
Beispiel der 
Wirtschaftsuniversität Wien 
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Dieser Teil umfasst die empirische Analyse der Studiendauer und des Studien- 
abbruch-Risikos auf Basis 


e der in der Hörerevidenz verfügbaren Stamm-, Studien- und Prüfungsdaten 
von mehreren inländischen Immatrikulationsjahrgängen (der Wirtschafts- 
universität Wien) sowie der 


e ergänzenden Daten aus einer Befragung der inländischen Immatrikulations- 
jahrgänge der Wintersemester 1990 und 1993. 


Im Mittelpunkt dieses Teils steht die Anwendung der im ersten Teil beschrie- 
benen Verfahren der Ereignisanalyse zur Ermittlung von Faktoren, die lange 
Studiendauern und hohe Studienabbruchraten erklären. Die Ergebnisse der 
empirischen Analysen zeigen, dass die Methoden der Ereignisanalyse die Be- 
antwortung der den Zielsetzungen der Arbeit entsprechenden Fragestellungen 
(siehe Abschnitt 1.1) zu Studiendauer und -abbruch ermöglichen. 


Weiters wird herausgearbeitet, welche Ergebnisse über Studiendauer und Stu- 
dienabbruch-Wahrscheinlichkeit mit Hilfe der Daten aus der Hörerevidenz rou- 
tinemäßig erzeugt werden können. Einige Fragen hingegen lassen sich nur durch 
Einbeziehung der Daten aus einer zusätzlich durchgeführten Befragung beant- 
worten. 
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Kapitel 9 


Studien zu den Themen 
Studiendauer und 
Studienabbruch 


Zur Untersuchung von Gründen und Ursachen für die hohen Studienabbruch- 
Quoten und die langen Studienzeiten gibt es international und national viele 
Studien. Die meisten Studien basieren auf Befragungen von Studienabbrechern, 
Studierenden oder Absolventen. In diesem Kapitel wird insbesondere auf eine 
Studie der Österreichischen Hochschülerschaft (Grossmann et al. (1999a)) und 
auf Untersuchungen zu diesem Thema, die in den letzten Jahren an der Wirt- 
schaftsuniversität durchgeführt worden sind, kurz eingegangen. Es werden die 
unterschiedlichen Ansätze, einerseits Befragungen und andererseits Analysen 
der Daten aus der Hörerevidenz, die verwendeten Verfahren und die Ergeb- 
nisse diskutiert. Diese Studien sollen einen ersten Aufschluss darüber geben, 
welche Faktoren einen Erklärungsbeitrag zum Studienabbruch und zu den lan- 
gen Studiendauern leisten. Abschließend werden zwei (internationale) Arbeiten 
diskutiert, in denen die Dauer bis zum erfolgreichen Studienabschluss bzw. bis 
zum Studienabbruch mit Hilfe von Ereignisdatenmodellen analysiert wurde. 


9.1 Befragungen 


Die Österreichische Hochschülerschaft führte in Zusammenarbeit mit dem In- 
stitut für Statistik und Decision Support Systems der Universität Wien eine 
“Empirische Untersuchung über Gründe und Ursachen für die langen Studien- 
zeiten in Österreich” durch (Grossmann et al. (1999a)). Befragt wurden aktive 
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Studierende aus ganz Österreich, die sich vorwiegend im zweiten Studienab- 
schnitt befanden. Die Befragung konzentrierte sich auf 


1. die soziale Situation der Studierenden, primär auf die Finanzierung des 
Studiums durch 


e Erwerbstätigkeit 
e Studienbeihilfe 


e Unterstiitzung durch Eltern/Familie 
2. den Übertritt Schule-Universitat 
e Schulische Ausbildung 


e Griinde fiir die Studienwahl 
e Studieneingangsphase 


e Orientierungslehrveranstaltungen 
3. das Studium 


e Organisatorische Probleme im Studienverlauf 
e Zugang zur Information über das Studium 
e Betreuung und Ausstattung 


e Lehrinhalte und Lehrveranstaltung 


4. die subjektive Einschätzung der Studiendauer 


Die Analysen wurden sowohl für den gesamten Datensatz als auch für die Stu- 
diengruppen und Fakultäten getrennt durchgeführt. Für die vorliegende Ar- 
beit von Interesse sind die Auswertungen für die Studiengruppe “Betriebswirt- 
schaftslehre”, die die Studienrichtungen Betriebswirtschaftslehre, Handelswis- 
senschaften und Internationale Betriebswirtschaftslehre umfasst; siehe Gross- 
mann et al. (1999b). Die einzelnen Variablen zu den oben angeführten Themen 
(wie etwa Geschlecht, Alter, durchschnittliche Berufsintensität in den ersten 
drei Semestern, Hauptaktivität Beruf oder Studium, Schultyp etc.) wurden in 
Häufigkeitstabellen für diese Studiengruppe und im Vergleich mit allen sonsti- 
gen Studien dargestellt. Potentielle Erklärungsfaktoren für die Überschreitung 
der Mindeststudiendauer wurden mit Hilfe von Kreuztabellen der erhobenen 
Variablen mit der Studiendauer analysiert. Für die Studiendauer verwendeten 
die Autoren die Dauer des ersten Abschnitts, die in die beiden Kategorien 
“Überschreitung der Mindeststudienzeit plus Toleranzsemester ja oder nein” 
unterteilt wurde und somit als dichotomes Merkmal in die Analyse einging. 
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Erwähnenswerte Ergebnisse dieser (univariaten) Auswertungen (für die Stu- 
diengruppe Betriebswirtschaftslehre) sind etwa: 


e Von den männlichen Befragten überschreiten die Mindeststudiendauer des 
ersten Abschnitts (plus Toleranzsemester) ca. 68% und von den weiblichen 
Studierenden knapp 60%. 


e Ca. 85% der Studierenden, die in den ersten drei Semestern voll berufstätig 
waren, das sind 4.3% der Befragten, überschreiten die Mindeststudiendauer 
(plus ein Semester); bei den Nicht-Berufstätigen, 54% der Befragten, sind 
es hingegen nur 59%. 


e Studierende, die als ihre Hauptaktivität den Beruf angeben (17%), über- 
schreiten zu 73% die Mindestdauer (plus eine Semester) und Studierende 
mit Hauptaktivität Studium zu 62%. 


e Von den Studierenden, die Schwierigkeiten am Studienbeginn angeben, über- 
schreiten etwa 77% die Mindeststudiendauer (plus ein Semester); bei den 
Studierenden ohne Schwierigkeiten am Studienbeginn liegt der Wert bei 
54%. 


e Auch zwischen den verschiedenen Matura-Schultypen zeigen sich deutliche 
Unterschiede; so studieren 57% der BHS-Maturanten länger als die Min- 
deststudienzeit des ersten Abschnitts (plus Toleranzsemester), bei den AHS- 
Maturanten sind es hingegen 72%. 


Diese Ergebnisse sind Hinweis auf potentielle Erklärungsfaktoren für lange 
Studienzeiten. 


Eine Analyse zum Studienabbruch an der Wirtschaftsuniversität führten Schnei- 
der und Weiländer (1990) in Zusammenarbeit mit fünf Diplomanden für die 

Studierenden des Immatrikulationsjahrgangs 1986/87 durch. Die Autoren nütz- 

ten die Daten aus der Hörerevidenz der WU für die ersten sechs Studienseme- 

ster, um zwischen folgenden Teilgruppen zu unterscheiden: 


1. “Wenigscheinige” (Studienabbrecher mit höchstens fünf inskribierten Seme- 
stern bzw. im sechsten Semester noch inskribierte Studierende mit höchstens 
fünf Leistungsnachweisen) 


2. Durchschnittsleister (keine Studienabbrecher, 9-13 Leistungsnachweise in 
fünf Semestern) 


3. Hochleister (keine Studienabbrecher, 19-23 Leistungsnachweise in fünf Se- 
mestern) 
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Im Anschluss an die deskriptive Analyse der Prüfungsdaten aus der Hörerevi- 
denz (Bildung der relativen und absoluten Anzahl von Scheinen in den Seme- 
stern) wurde aus jeder Gruppe eine zufällige Stichprobe gezogen und (struk- 
turierte) Interviews geführt. Das Hauptinteresse galt der Gruppe der Wenig- 
scheinigen. 


Der in den Interviews verwendete Fragebogen umfasste ähnliche Themen wie 
die angeführten Punkte der ÖH-Studie. Ergänzend wurden die Studienabbre- 
cher auch nach den Abbruchgründen und -tätigkeiten gefragt und die “Perfor- 
mance” (Anwesenheit, Antritte) der Befragten in den einzelnen Pflichtlehrver- 
anstaltungen des ersten Abschnitts untersucht. Die Autoren kommen beispiels- 
weise zu dem Ergebnis, dass Studienabbrecher zu einem sehr frühen Zeitpunkt 
aus dem Universitätssystem ausscheiden. Sie haben zu diesem Zeitpunkt kaum 
Leistungsnachweise erbracht, jedoch meist mehrmals versucht, eine Lehrveran- 
staltung zu absolvieren. Als wichtigste Abbruchgründe werden angeführt: 


e Studium entspricht nicht den Vorstellungen und Neigungen 
e Konzentration auf ein anderes Studium 
e Günstiges berufliches Angebot 


e Doppelbelastung durch Erwerbstätigkeit 


Die vorwiegende Tätigkeit nach dem Abbruch wird (in Reihenfolge der Häufig- 
keit) wie folgt angegeben: 


e Erwerbstätigkeit 
e Konzentration auf ein anderes Studium 


e Konzentration auf eine andere Ausbildung 


Ergebnisse aus den fünf Diplomarbeiten, die im Zuge dieser Studie durch- 
geführt worden sind, werden zusammenfassend von Häfke-Schönthaler (1999) 
erläutert. 


In Deutschland führt das Hochschulinformationssystem (HIS) zum Thema Stu- 
dienablauf Längsschnittbefragungen von Hochschulabsolventen durch. Es wer- 
den Daten erhoben, die von der Prüfungsstatistik nicht bereitgestellt werden 
können und die zur Analyse von Studienverlaufs- und -erfolgsdaten wichtig 
sind. Schwerpunkte der Untersuchung sind die Bereitstellung von Information 
struktureller Daten zum Studienverlauf wie 
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Fach- und Hochschulwechsel 


Studienunterbrechungen 


Auslandsstudium 


e Studienbedingungen 


e Berufstätigkeit 


9.2 Analyse der Daten aus der Hörerevidenz 


Eine Studienverlaufsanalyse an der Wirtschaftsuniversität, die ausschließlich 
auf Basis der Daten aus der Hörerevidenz durchgeführt worden ist, ist die 
Arbeit von Hoffmann (1987). Die retrospektive Vorstudie ausgehend von den 
Absolventen des Studienjahres 1985/86 wurde zur Ermittlung der Verteilung 
der Studiendauer — ergänzend getrennt nach Geschlecht und Studienrichtung 
— durchgeführt. Beispielsweise wurde für diesen Absolventenjahrgang eine (re- 
trospektive) durchschnittliche Studiendauer von 12.3 und ein Median von 12 
Semester ermittelt. Die prospektive Hauptstudie beinhaltet die Untersuchung 
der Studienanfänger des Wintersemesters 1979/80, deren Studienverlauf bis 
zum Herbst 1986 beobachtet worden ist. Mit dem Stichtag wurden vier Grup- 
pen von Studienanfängern unterschieden: 


1. Studierende, die bis zum Stichtag noch keine Teildiplomprüfung abgelegt 
haben. Die Studienpläne der Wirtschaftsuniversität werden beispielswei- 
se auf den Internet-Seiten der Wirtschaftsuniversität ausführlich erläutert 
(http://www.wu-wien.ac.at/stab); grob kann gesagt werden, dass in jedem 
Studienabschnitt einige große Prüfungen, die sogenannten Vor- bzw. Teil- 
diplomprüfungen absolviert werden müssen, zu denen man nur antreten 
kann, wenn vorher dazugehörige Lehrveranstaltungsprüfungen (sogenannte 
“Scheine”) abgelegt worden sind. 


2. Studierende, die schon eine Teildiplomprüfung abgelegt haben, aber sich 
zum Stichtag noch im ersten Abschnitt befinden 


3. Studierende im zweiten Abschnitt 


4. Absolventen 


Die prospektive Analyse umfasst deskriptive Analysen wie Häufigkeitsverteil- 
ungen der Grundgesamtheit nach Studiendauer (gesamt sowie getrennt nach 
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dem ersten und zweiten Studienabschnitt), Geschlecht, Alter bei Studienbe- 
ginn, Schultyp sowie dem Ablegesemester und der Anzahl der Antritte zu den 
jeweiligen Vor- und Teildiplomprüfungen des ersten und zweiten Studienab- 
schnitts. Mit Hilfe von x?-Tests und Varianzanalysen wurden auch Untersu- 
chungen zur Abhängigkeit und Prognosemöglichkeit des Studienerfolgs mit den 
im System vorhandenen Variablen wie Geschlecht, Nationalität, Schultyp und 
Alter durchgeführt. Als Indikator für den Studienerfolg wurde der Studier- 
status und die Studiendauer verwendet. Der Autor kommt zu dem Schluss, 
dass die einbezogenen Variablen die Studiendauer zwar beeinflussen, aber nur 
zu einem geringen Teil erklären. Eine (Individual)Prognose der Studiendauer 
zu Beginn des Studiums mit den im System verfügbaren Variablen sei daher 
nicht sinnvoll. Ergänzend erwähnt der Autor in Anlehnung an andere zum 
Thema durchgeführte Projekte, dass alleine durch die Miteinbeziehung der 
Prüfungsaktivitäten im ersten Studienjahr (Anzahl, Noten) der Studienerfolg 
mit hoher Sicherheit prognostizierbar sei. 


Eine aktuellere Studie auf Basis der Daten aus der Hörerevidenz ist die Ar- 
beit von Häfke-Schönthaler (1999). Im Mittelpunkt dieser Arbeit stehen die 
Leistungen der Studienanfänger im ersten Jahr und deren Einfluss auf die 
Studiendauer und die Wahrscheinlichkeit des Studienabbruchs. Zielgruppe der 
Untersuchung sind alle inländischen, ordentlichen Hörer, die in den Winter- 
semestern 1990/91 - 1993/94 erstmals an der Wirtschaftsuniversität ein Di- 
plomstudium der aktuellen Studienordnung inskribiert haben. Diese Jahrgänge 
wurden bis zum Stichtag 1. Juli 1996 beobachtet. Die Analysen wurden ge- 
trennt durchgeführt für “aktive” (zumindest einen Leistungsnachweis im ersten 
Studienjahr) und “passive” Studierende sowie für Erstimmatrikulierte und je- 
ne Erstinskribenten, die an einer anderen Universität oder schon früher an 
der Wirtschaftsuniversität immatrikuliert haben, aber erst im betrachteten 
Wintersemester erstmals ein ordentliches Diplomstudium (der aktuellen Stu- 
dienordnung) inskribiert haben. Neben Häufigkeitstabellen für die Anzahl der 
(positiven) Leistungen im ersten Studienjahr und für die im System vorhan- 
denen Variablen wie Geschlecht, Alter und Schulbildung untersucht die Auto- 
rin mit Hilfe der logistischen Regression den Einfluss dieser Faktoren auf den 
Studienerfolg und die Studienabbruch-Wahrscheinlichkeit. Zusammenfassend 
kommt die Autorin zu dem Schluss, dass die Leistungen im ersten Studienjahr 
einen großen Einfluss auf den Studienerfolg haben und dass nicht Misserfolge 
bei Prüfungen sondern Aktivität bzw. Inaktivität ein guter Prädiktor für den 
Studienabbruch ist. 


Eine ausführliche Arbeit über retrospektive Analysen von Absolventenjahrgän- 
gen mit Hilfe der zur Verfügung stehenden Hörerevidenzdaten (für den Fachbe- 
reich Wirtschaftswissenschaften der Johann Goethe-Universität in Frankfurt 
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am Main) präsentiert Würger (1992). Als Grundgesamtheit wählte der Autor 
die Absolventen von zehn Prüfungsterminen der drei Studienrichtungen BWL, 
VWL und WIP zwischen Sommersemester 1984 und Wintersemester 1988/89. 
Er teilt das Studium in mehrere Phasen und untersucht Beziehungen zwischen 


e den Prüfungsresultaten des Studiums, 
e der Studiendauer und dem Prüfungserfolg und 


e den einzelnen Studienphasen zueinander. 


Die Beziehungen wurden ergänzend getrennt nach Geschlecht, Nationalität, 
Bildungsstatus und Studienrichtung analysiert. 


Zum Abschluss dieses Abschnitts wird noch auf eine aktuelle Arbeit aus Eng- 
land eingegangen. Die Autoren Smith und Naylor (2001) analysieren in ihrem 
Artikel die Studienabbruch-Wahrscheinlichkeiten jener Studienkohorte, die im 
Studienjahr 1990/91 in Großbritannien ein dreijähriges Studium begonnen hat. 
Als Motivation für ihre Arbeit nennen die Autoren 


e die Einführung von Leistungskennzahlen (engl. performance indicators) für 
die Universitäten in Großbritannien, die die Abbruchquote neben dem Stu- 
dienfortschritt als einen dieser Indikatoren enthalten. Aktuelle Details zu 
den Leistungskennzahlen in Großbritannien können auf den Internet-Seiten 
des HEFCE (Higher Education Funding Council for England) nachgelesen 
werden (http://www.hefce.ac.uk). Ziel der Autoren ist es, Einflussgrößen 
auf die Wahrscheinlichkeit des Studienabbruchs zu ermitteln und zu er- 
klären, inwieweit die einbezogenen Variablen die Unterschiede in den Ab- 
bruchquoten verschiedener Universitäten und Studienrichtungen erklären; 


e die jüngsten Kürzungen in den Förderungen von Studierenden aus ärmeren 
Verhältnissen; es wird vermutet, dass sich diese Kürzungen negativ auf die 
Anzahl der Studienanfänger und auf die Abbruchquote von Studierenden 
aus ärmlicheren Verhältnissen auswirken werden. Daher analysieren die Au- 
toren auch den Einfluss des sozialen Status auf die Abbruchwahrscheinlich- 
keit; 


e das Interesse der Universitäten und Studierenden selbst an Erklärungsfak- 
toren für den Studienabbruch. 


Um die Studienabbruch-Wahrscheinlichkeit in Abhängigkeit von erklärenden 
Variablen zu schätzen, wurde ein Probit Modell (siehe zum Beispiel Aldrich 
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und Nelson (1987)), getrennt nach Geschlecht, implementiert. Die Daten zum 
Studienabbruch und die in das Modell einbezogenen erklärenden Variablen 
entstammen einer Datenbank, in der die Daten aus der UK-weiten Studenten- 
(Universities Statistical Records) und Schul-Datenbank zusammengeführt wer- 
den. Diese Datenbank enthält 


e persönliche Informationen: Geburtsdatum, Geschlecht, Familienstand, Hei- 
matadresse, Beschäftigung der Eltern; 


e Informationen zur akademischen Vergangenheit: weitere akademische Aus- 
bildungen, a-priori Qualifikationen; 


e Studiendaten; 


e Studienabbrecher-Informationen: erreichte Qualifikation, Abbruchgrund, 
Hauptaktivität nach dem Abbruch; 


e Schuldaten: Schultyp, Noten. 


Die Autoren kommen zu dem Ergebnis, dass die Studienabbruch-Wahrschein- 
lichkeiten mit den individuellen Charakteristiken variieren und niedriger für 
Studierende mit besseren Schulnoten, staatlicher Schulausbildung und besse- 
rem sozialen Hintergrund sind. Jedoch gibt es auch nach Einbeziehung der 
zahlreichen erklärenden Variablen beträchtliche Unterschiede in den Abbruch- 
quoten zwischen den Universitäten und Studienrichtungen. 


Die Studie ist vor allem deshalb von Interesse, weil sie 


e mit einem umfassenden Datenmaterial durchgeführt worden ist, das auf die 
Studenten- und Schuldaten von Großbritannien zurückgreift, und 


e aufzuzeigen versucht, dass nicht alleine die „nackten” Abbruchquoten als 
Leistungsindikatoren für einen Vergleich von Universitäten herangezogen 
werden können, sondern zumindest die unterschiedlichen Eingangsvoraus- 
setzungen der Studierenden der verschiedenen Universitäten und Studien- 
richtungen berücksichtigt werden müssen. 


9.3 Studien unter Verwendung der Ereignis- 
datenanalyse 


In diesem Abschnitt wird auf zwei internationale Arbeiten eingegangen, in 
denen zur Analyse der Studiendauer und des Studienabbruch-Risikos para- 
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metrische und semiparametrische Ereignisdatenmodelle implementiert worden 
sind. 


Booth und Satchell (1995) analysieren in ihrem Artikel die Determinanten des 
Studienabbruchs und des erfolgreichen Studienabschlusses von britischen Dok- 
toratsstudenten, die 1980 ihr Diplomstudium abgeschlossen haben und bis 1986 
ein Doktoratsstudium begonnen haben. Für die statistische Analyse der (aus 
einer Befragung) verfügbaren Daten implementierten sie ein Mehr-Zustands- 
Modell mit den zwei End-Zuständen “Studium abgeschlossen” und “Studium 
abgebrochen” (siehe Kapitel 7). Studierende, die zum Stichtag im Jahr 1986 
das Studium weder abgeschlossen noch beendet hatten, wurden als rechts- 
zensierte Fälle in die Studie aufgenommen. 


Als erklärende Variablen nahmen die Autoren folgende zeitkonstante Varia- 
blen in das Modell auf, gemessen am Studienbeginn: Form der finanziellen Un- 
terstützung, Vollzeit- oder Teilzeitstudent zu Studienbeginn, Studienabschluss- 
Beurteilung (degree class), Schulnoten (A level scores), Diplomstudienrichtung, 
Doktoratsstudienrichtung, Familienstand, Kinder, sozialer Status sowie Infor- 
mationen über den Erwerb eines Masters oder einer anderen — nach Beendigung 
des Diplomstudiums — erworbenen Qualifikation. Da keine Informationen über 
einen Wechsel von Vollzeit- zu Teilzeitstudent oder umgekehrt verfügbar wa- 
ren, konnte diese Variable nicht als zeitabhängige Variable integriert werden. 
Bei der Interpretation ist daher zu beachten, dass diese Variable nur etwas 
über den Zustand zu Studienbeginn aussagt. 


Die Daten wurden getrennt nach dem Geschlecht analysiert; als parametri- 
sches Regressionsmodell zur Analyse der Studienabschluss- und -abbruchraten 
wurde das verallgemeinerte Gamma-Modell implementiert und in Folge die Hy- 
pothese « = 1 zur Überprüfung der Annahme eines Weibull-Modells getestet 
(siehe Abschnitt 5.1). Neben dem Effekt der einbezogenen erklärenden Varia- 
blen wurden auch die (bedingte) erwartete Studiendauer bis zum Abschluss 
und bis zum Abbruch sowie die Abschluss- und die Abbruchwahrscheinlichkei- 
ten für unterschiedliche Ausprägungen der Variablen geschätzt. 


Die Autoren kommen zusammenfassend zu dem Ergebnis, dass die Studienab- 
schlussraten zwischen den verschiedenen Doktoratsstudienrichtungen — unter 
Kontrolle der anderen einbezogenen Variablen - stark differieren, für naturwis- 
senschaftliche Studienrichtungen besonders hoch und für Sprachen und Kunst 
besonders niedrig sind. Weiters hat der Status “Teilzeitstudent” zu Studien- 
beginn einen negativen Effekt auf die Studienabschlussrate. 


Yamaguchi (1991) analysiert als Anwendung eines Cox-Modells mit zeitabhän- 
gigen Kovariablen (siehe Kapitel 6) die Abbruchraten einer Kohorte von Stu- 
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dienanfängern. Als zeitunabhängige erklärende Variablen bezieht der Autor 
das Geschlecht, Schulnoten, den Studieneintritt als Vollzeit- oder Teilzeitstu- 
dent und den Zeitabstand zwischen Schulabschluss und Studienbeginn in das 
Modell ein. Der Familienstand (verheiratet oder nicht) und die Berufstätigkeit 
(als dichotomes Merkmal: weniger als oder mindestens 20 Stunden beschäftigt) 
wurden als zeitabhängige (endogene) Variablen modelliert. Yamaguchi kommt 
zu dem Schluss, dass verheiratete Studenten, Teilzeitstudenten zu Studienbe- 
ginn und berufstätige Studierende Abbruch-gefährdeter sind. Gute Noten in 
der Schule und ein geringerer Zeitabstand zwischen Schule und Studium ver- 
ringern das Risiko eines Studienabbruchs. 
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Kapitel 10 


Daten und erklärende Variablen 


Die Datenbanken von Universitäten verfügen über ein umfangreiches Daten- 
material zu ihren Studierenden. Im vorherigen Kapitel sind einige Analysen 
zum Thema Studiendauer und -abbruch diskutiert worden, die mit Hilfe der 
in diesen Datenbanken verfügbaren Daten durchgeführt worden sind. Zumeist 
ist die Ermittlung von Einflussfaktoren und die Prognostizierbarkeit des Studi- 
en(miss)erfolgs (der Studiendauer bzw. der Studienabbruch-Wahrscheinlichkeit) 
in Abhängigkeit von den aus den Daten der Hörerevidenz ermittelten Ein- 
flussfaktoren ein zentrales Ziel der Analysen. Auch in der vorliegenden Arbeit 
werden die in den Verwaltungssystemen der Wirtschaftsuniversität verfügbaren 
Hörerevidenz-Daten dazu genützt, um das eben angeführte Ziel zu verfolgen. 


Von der zentralen Verwaltung wurden im Jänner 2001 für die Zwecke des 
(zu Beginn dieser Arbeit erwähnten) Projekts “Studienverlaufsanalyse” (sie- 
he Hackl und Sedlacek (2002)) alle Stammdaten, Diplomstudiendaten und 
(bis dahin erzielten) Prüfungsergebnisse (in Diplomstudien) von Studieren- 
den, die vor dem Wintersemester 1996/97 in Österreich immatrikuliert haben, 
aus der Studenten-Datenbank (STEP) herausgeladen und als ASCII-Dateien 
zur Verfügung gestellt. Als Stichtag (= Ende des Beobachtungszeitraums) der 
Studie wird der 31. Dezember 2000 definiert; alle Aussagen der Studie bezie- 
hen sich insoferne auf diesen Zeitpunkt, als die gesamte Information in den 
Ergebnissen berücksichtigt ist, die die Vergangenheit vor dem Stichtag be- 
schreibt. Die Daten von Studierenden, die nach dem Wintersemester 1996/97 
in Österreich immatrikuliert haben, wurden in das Projekt nicht einbezogen, 
weil unter diesen Studierenden bis zum Stichtag keine Absolventen zu erwarten 
waren und daher keine Aussagen über die Studiendauer bis zum erfolgreichen 
Abschluss gemacht werden können. Diese Arbeit greift insbesondere auf die 
Daten der Immatrikulationsjahrgänge 1989 bis 1993 zurück. 
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In diesem Kapitel wird im ersten Abschnitt erläutert, welche Daten von Stu- 
dierenden in der Hörerevidenz verfügbar sind und in welcher Form sie für 
die empirischen Analysen des Studienerfolgs verwendet werden können. Ein 
Schwerpunkt des ersten Abschnitts liegt in der Definition der Dauer bis zum 
erfolgreichen Studienabschluss bzw. bis zum Studienabbruch und den in diesem 
Zusammenhang auftretenden Problemen. 


Analysen, die ausschließlich auf Basis von Daten aus der Hörerevidenz durch- 
geführt werden, ist gemeinsam, dass potentielle Erklärungsgrößen aus dem 
(sozialen) Umfeld der Studierenden wie die Berufstätigkeit oder eine zwei- 
te Ausbildung neben dem Studium nicht in das Modell einbezogen werden 
können, da sie im System nicht verfügbar sind. Daher wurden weitere Daten 
in die Studie einbezogen, die in einer im Rahmen der Studie durchgeführten 
Befragung von (ehemaligen) Studierenden erhoben wurden. Das Design der 
Befragung, die erhobenen Variablen und die Zusammenführung dieser Daten 
mit den Daten aus der Hörerevidenz sind das Thema des zweiten Abschnitts. 


10.1 Daten aus der Hörerevidenz (Systemda- 
ten) 


Die Daten aus der Hörerevidenz werden in Stamm-, Studien- und Prüfungsdaten 
unterschieden. 


Stammdaten 


Für jeden Studierenden der Wirtschaftsuniversität sind folgende Stammdaten 
in der Hörerevidenz verfügbar: 


e Matrikelnummer (MaNr) 
e Geburtsdatum 

e Geschlecht 

e Nationalität 


e Heimat- und Zustelladresse; die Adressen können sich während der Stu- 
dienzeit ändern, im System sind nur die aktuellen Adressen - sofern die 
Änderungen vom Studierenden bekannt gegeben werden - eingetragen 
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e Datum der Reifeprüfung 


e Schulform, in der die Reifeprüfung abgelegt worden ist; hier werden 33 Aus- 
prägungen unterschieden; siehe Anhang A. 


Mit Hilfe dieser Stammdaten wurden folgende Variablen für die in dieser Arbeit 
durchgeführten empirischen Analysen definiert: 


e Alter bei Studienbeginn (in Jahren) 


e Alter zum Zeitpunkt der Matura 


e Geschlecht 


e Nationalität 


e Zeit zwischen Matura und Studienbeginn 


e Schultyp; für diese Variable wurden aus den vorhandenen Ausprägungen 
(siehe Anhang A) folgende Kategorien gebildet: 


Handelsakademie (HAK); entspricht der Schulform 20 


Gymnasium (AHS); für diese Kategorie wurden die Schulformen 1 bis 
10 und 12 bis 16 der im System verfügbaren Ausprägungen zusammen- 
gefasst 


Höhere Technische Lehranstalt (HTL); hierfür wurden die Kategorien 
19 und 23 zusammengefasst 


Höhere Lehranstalt für wirtschaftliche Berufe (HLA); Ausprägungen 
11 und 21 


Sonstige (alle anderen Ausprägungen) 


Für empirische Analysen der Studiendauer und des Studienabbruch-Risikos 
empfiehlt es sich, die Studierenden zu unterscheiden in 


e inländische Immatrikulierte, das sind Studierende, die an der Wirtschafts- 
universität immatrikuliert haben und im Immatrikulationssemester ein or- 
dentliches Diplomstudium inskribiert haben, und in 


e Zusatzstudenten, das sind Studierende, die an der Wirtschaftsuniversität 
ein ordentliches Diplomstudium inskribiert haben und 


ausländischer Nationalität sind, 
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— inländischer Nationalität sind und an einer anderen österreichischen 
Universität immatrikuliert haben, 


— inländischer Nationalität sind und an der WU immatrikuliert haben, 
aber nicht im Immatrikulationssemester ein ordentliches Diplomstudi- 
um eröffnet haben. 


Die Anzahl dieser Zusatzstudierenden ist in den letzten Jahren stark gestiegen. 
Etwa ein Viertel aller Absolventen des Studienjahres 1999/2000 und etwa 50% 
der Erstinskribenten des Wintersemesters 1996/97 zählen zu dieser Kategorie. 
Es empfiehlt sich, die Zusatzstudierenden separat zu behandeln, weil 


ə aus vorangegangenen Studien (siehe etwa Häfke-Schönthaler (1999)) be- 
kannt ist, dass sie häufig ein anderes Studierverhalten als die inländischen 
Immatrikulierten zeigen (Doppelstudenten, Schnupperstudenten, Erwerb von 
Zusatzqualifikation zum eigentlichen Hauptstudium); dieser Punkt kommt 
insbesondere bei Analysen von Studieneingangs-Kohorten zum Tragen. 


e ihre WU-Studiendauer in einigen Fällen aufgrund von Anrechnungen des 
vorhergehenden (verwandten) Studiums bzw. aus dem Ausland nach unten 
verzerrt ist. 


Der Schwerpunkt der Analysen in dem vorliegenden Bericht liegt auf den Da- 
ten von inländischen Immatrikulierten. Einige Kennzahlen zu den Zusatzstu- 
dierenden können in Hackl und Sedlacek (2002) nachgelesen werden. 


Diplomstudiendaten 


Die Studierenden der WU konnten nach dem bis zum Wintersemester 2002/03 
gültigen (und daher dieser Arbeit zugrunde liegenden) Studienplan unter vier 
ordentlichen Diplomstudien wählen, wobei sie häufig mehr als eine Studien- 
richtung inskribierten. Beispielsweise haben etwa 75% der Absolventen des 
Studienjahres 1999/2000 mehr als eine Studienrichtung (bzw. Studienordnung) 
inskribiert. Für jedes an der Wirtschaftsuniversität inskribierte ordentliche Di- 
plomstudium liegen in der Studentendatenbank STEP zu jeder Matrikelnum- 
mer folgende Systemdaten vor: 


e Kennzahl der Studienrichtung (Betriebswirtschaftslehre (BW), Handelswis- 
senschaften (HW), Wirtschaftspädagogik (WIPAD), Volkswirtschaftslehre 
(VW)) 
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Datum des Studienbeginns 


Ende des ersten Studienabschnitts (das ist das Datum des Bestehens der 
letzten Teildiplomprüfung im ersten Abschnitt) 


Ende des zweiten Studienabschnitts (das ist das Datum des erfolgreichen 
Studienabschlusses und gleichbedeutend mit dem Datum des Bestehens der 
letzten Teildiplomprüfung im zweiten Abschnitt) 


Datum, an dem das Studium geschlossen worden ist; dieses Datum ent- 
spricht 


— dem Ende des zweiten Studienabschnitts bei erfolgreichem Abschluss 
des Studiums, 


— dem Datum vom Ende des zweiten von drei nicht inskribierten Seme- 
stern in Folge (Schließung durch die Universität) oder 


— dem Datum der selbst veranlassten Schließung des Studiums. 


Der Eintrag wird in den beiden letzten Fällen gelöscht, falls das Studium 
wieder aufgenommen wird. 


Anzahl der inskribierten Semester 


eine Variable, die angibt, ob der Erfolgsnachweis aus Buchhaltung und Ko- 
stenrechnung mit Studienbeginn erbracht ist oder nicht; die meisten Studie- 
renden erbringen diesen Erfolgsnachweis zu Studienbeginn nicht und müssen 
ihn in Form von Ergänzungsprüfungen an der Wirtschaftsuniversität selbst 
erbringen; eine Ausnahme bilden etwa Absolventen der Handelsakademie. 


Die Diplomstudiendaten werden zur Ermittlung der 


Dauer bis zum erfolgreichen Studienabschluss (Studiendauer) 
Dauer bis zum Abschluss des ersten Studienabschnitts 
Dauer bis zum Studienabbruch 


Dauer bis zum Stichtag (bei noch im Gang befindlichen Studien) 


benötigt. Studienverlaufsanalysen erfordern eine genaue Definition dieser Be- 
griffe. In der vorliegenden Arbeit wird die Studiendauer bis zum erfolgreichen 
Abschluss definiert als: 


117 


Günther Sedlacek - 978-3-631-75405-4 
Downloaded from PubFactory at 01/11/2019 05:23:57AM 
via free access 


(a) Die Studiendauer ist der Zeitraum zwischen dem Datum des Studienbe- 
ginns an der WU und dem des (ersten) Abschlusses eines WU-Studiums. Je 
nach Modellierung kann diese Zeit exakt oder in Semestern angegeben werden. 


Für diese Definition ergeben sich folgende Vorteile: 


Einfache Berechnungsweise mit Hilfe der Systemdaten 


Die Definition berücksichtigt, dass Studienrichtungen an der WU (insbeson- 
dere die am häufigsten gewählten Studienrichtungen Betriebswirtschafts- 
lehre und Handelswissenschaften; ca. 90% der WU-Absolventen haben ei- 
nes dieser beiden Studien absolviert) einander sehr ähnlich sind und da- 
her der überwiegende Teil von Lehrveranstaltungen bei einem Studienrich- 
tungswechsel anrechenbar ist. Definiert man als Studiendauer etwa nur die 
Verweildauer im abgeschlossenen Diplomstudium, wird die eigentliche echte 
Studiendauer bei einem Studienrichtungswechsel unterschätzt. 


Unter den an der WU immatrikulierten inländischen Absolventen, die im 
Studienjahr 1999/2000 (Absolvierung der zweiten Diplomprüfung zwischen 
1.10.1999 und 30.9.2000) an der WU ihr erstes Diplomstudium abgeschlos- 
sen haben, finden sich beispielsweise ca. 15%, bei denen der Studienbeginn 
des abgeschlossenen Studiums mindestens ein Semester (und im Durch- 
schnitt 4 Semester) nach dem Studienbeginn an der WU liegt. 


Ein Nachteil dieser Definition ist: 


Jede Studienunterbrechung - ob offiziell (keine Inskription), inoffiziell (In- 
skription, aber keine Zeitinvestition in das Studium) oder Exmatrikulation 
und Wiederaufnahme des WU-Studiums - wird als Studienzeit mitgerech- 
net. In Analysen von mehreren Absolventenjahrgängen konnte gezeigt wer- 
den, dass nur etwa 4% aller Absolventen während ihrer Studienzeit minde- 
stens ein und durchschnittlich 2.5 Semester nicht inskribiert haben; hiervon 
zumeist Studierende, die sehr lange für ihr Studium gebraucht haben. 


Dieselbe Definition kann analog auch für die Dauer des ersten Studienab- 
schnitts verwendet werden. Alternative Definitionen für die Studiendauer, ihre 
Vor- und Nachteile sowie empirische Vergleiche sind in Hackl und Sedlacek 
(2002) nachzulesen. 


Als Dauer bis zum Studienabbruch wird sinngemäß die Definition 


(a) Zeit zwischen Immatrikulation und Studienabbruch eingeführt. 


Hierfür wird eine exakte Definition des Ereignisses Studienabbruch benötigt. 
Wir diskutieren im folgenden zwei alternative Definitionen. 
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(A) Unter System-Abbruch (zu einem Zeitpunkt) wird die (nicht abschlussbe- 
dingte) Schließung aller an der Wirtschaftsuniversität inskribierten ordentli- 
chen Diplomstudien verstanden. 


System-Abbrecher sind somit Studierende, die vor dem Stichtag alle ihre an 
der Wirtschaftsuniversität begonnenen Studien abgebrochen haben. Studie- 
rende, die etwa das Studium der Handelswissenschaften “abbrechen” und das 
der Betriebswirtschaftslehre an der Wirtschaftsuniversität fortsetzen und ab- 
schließen, werden nicht als Abbrecher des WU-Studiums behandelt, sondern 
als Absolventen (des BW-Studiums). Hingegen werden Studierende, die ihr 
Studium an der Wirtschaftsuniversität abgebrochen haben und an einer an- 
deren Universität ein anderes (eventuell auch wirtschaftswissenschaftliches) 
Studium fortgesetzt (und möglicherweise abgeschlossen) haben, als Studienab- 
brecher behandelt. Ihr erfolgreicher Studienabschluss an einer anderen Uni- 
versität wird nicht berücksichtigt. Es ist zu beachten, dass System-Abbrecher 
(zum Stichtag) ihr WU-Studium zu einem späteren Zeitpunkt wieder aufneh- 
men können und dann nicht mehr zu den System-Abbrechern zählen. 


Grundsätzlich gelten für die Ermittlung der Dauer bis zum Studienabbruch 
nach Definition (a) die bereits im Zusammenhang mit dem Studienabschluss 
diskutierten Vor- und Nachteile, allerdings müssen noch weitere Probleme be- 
achtet werden. 


Da Studienabbrecher häufiger als Absolventen ihr Studium “offiziell” unter- 
brechen (mindestens ein Semester nicht inskribieren), wird die Dauer bis zum 
Abbruch mehr als bei den Absolventen überschätzt. Wird das Datum des Stu- 
dienabbruchs, zu dem das Studium (die Studien) geschlossen wurde(n), unter 
Verwendung der im System vermerkten Daten ermittelt, wird die tatsächliche 
Dauer bis zum Abbruch meist deutlich überschätzt (und die Anzahl der Stu- 
dienabbrecher eines Studienanfänger-Jahrgangs zum Stichtag unterschätzt): 
Viele Studierende brechen ihr Studium ab, ohne dies der Evidenzstelle be- 
kannt zu geben; das Studium wird jedoch — wie erwähnt - von offizieller Seite 
erst zu Beginn des dritten nicht inskribierten Semesters in Folge geschlossen. 
Studierende, die zum Stichtag schon abgebrochen haben aber noch nicht drei 
Semester in Folge nicht inskribiert haben, werden daher im System nicht als 
Studienabbrecher geführt. Zur Korrektur diees Fehlers wurde im Zuge der Stu- 
die eine alternative Definition der Begriffe Studienabbruch und Abbruchdatum 
überlegt. 


(B) Studienabbruch liegt zusätzlich vor, wenn ein Studierender zum Stichtag 
vier Semester lang keine (positive oder negative) Leistung mehr erbracht und 
insgesamt weniger als zehn positive Vor- bzw. Teildiplomprüfungen abgelegt 
hat - unabhängig von der Zahl der inskribierten Semester in dieser Zeit. 
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Diese Definition basiert auf der Überlegung, dass die Nicht-Aktivität im Studi- 
um meist ein Indikator für den Studienabbruch ist. Solche Studierenden werden 
in der Folge als nicht-aktive Studierende bezeichnet. Alle anderen Studenten 
werden als aktive Studierende geführt. Von Studierenden, die zumindest vier 
Semester lang inaktiv waren aber mindestens zehn positive Vor- bzw. Teildi- 
plomprüfungen absolviert haben, kann vermutet werden, dass sie noch vor- 
haben, ihr Studium abzuschließen und beispielsweise an ihrer Diplomarbeit 
arbeiten. 


Als Studienabbrecher werden in der Folge sowohl die System-Abbrecher (A) 
als auch die nicht-aktiven Studierenden (B) untersucht. Als Dauer bis zum 
Studienabbruch wird in dieser Arbeit zumeist die folgende Definition (b) ver- 
wendet: 


(b) Die Dauer bis zum Studienabbruch beträgt von Studienabbrechern, die an 
der Wirtschaftsuniversität keine einzige Leistung erbracht haben, ein Semester; 
bei anderen Studienabbrechern entspricht sie der Zeit zwischen Studienbeginn 
und dem “Datum der letzten Leistung plus ein Semester”. 


Die entsprechenden Werte können aus den Daten der Hörerevidenz ermittelt 
werden. 


Die eben angesprochenen Punkte zeigen, wie schwierig der Begriff Studienab- 
bruch zu handhaben sind. Bei WU-Studienabbrechern kann es sich um er- 
folgreiche Universitätsabsolventen handeln, die ihr an der Wirtschaftsuniver- 
sität begonnenes Studium an einer anderen Universität fortgesetzt und ab- 
geschlossen haben. Da der Wirtschaftsuniversität die weiteren Karrierewege 
der Studienabbrecher nicht bekannt sind, konnten diese bei der Modellierung 
des Studienabbruchs nicht berücksichtigt werden. Eine (derzeit nicht bestehen- 
de) Datenbank, die die Studenten-Daten aller österreichischen Universitäten 
enthält, würde eine detailliertere Analyse der Studienverläufe österreichischer 
Studenten ermöglichen; vgl. Smith und Naylor (2001). 


Prüfungsdaten 


Vor- und Diplomprüfungsdaten informieren zu jeder an der WU absolvierten 
bzw. angerechneten Vor- bzw. Diplomprüfung über 


e die Studienrichtung, in der sie abgelegt worden ist 
e das Datum der Prüfung 


e die Note 
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e die Zahl der Prüfungswiederholung (in der jeweiligen Studienrichtung) 
e die Prüfer 


e die Anrechnung (ja/nein); falls ja, sind bei Anrechnungen von Prüfungen, 
die nicht an der Wirtschaftsuniversität absolviert worden sind, die obigen 
Informationen meist nicht verfügbar. 


Lehrveranstaltungsdaten informieren zu jeder an der WU absolvierten bzw. 
angerechneten Lehrveranstaltungsprüfung (sogenannte Scheine) über 


e die Studienrichtung 
e das Datum der Prüfung 
e die Note 


e die Prüfer 


e die Anrechnung (ja/nein) 


Die Prüfungsdaten wurden verwendet, um insbesondere folgende (für die durch- 
geführten empirischen Analysen bedeutenden) Variablen zu bilden: 


e Anzahl aller an der WU abgelegten (positiven) Lehrveranstaltungsprüfungen 
im ersten Studienjahr 


e Notendurchschnitt dieser Prüfungen; hierfür zählt nur die letzt gültige Note 
jeder Lehrveranstaltung 


e Anzahl der an der WU abgelegten (positiven) Lehrveranstaltungsprüfungen 
zum Stichtag 


e Anzahl der an der WU abgelegten (positiven) Vor- bzw. Diplomprüfungen 
im ersten Studienjahr 


e Anzahl der an der WU abgelegten (positiven) Vor- bzw. Diplomprüfungen 
zum Stichtag 


Lehrveranstaltungen, die nicht mit einer Beurteilung abgeschlossen worden 
sind (wie das Orientierungstutorium/OTU), wurden genauso wenig wie nicht 
an der Wirtschaftsuniversität abgelegte Prüfungen berücksichtigt. An der Wirt- 
schaftsuniversität abgelegte Ergänzungsprüfungen, das sind Prüfungen aus 
Buchhaltung und Rechnungswesen, die jene Immatrikulierten ablegen müssen, 
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die zu Studienbeginn keinen Nachweis dafür erbringen konnten, wurden grund- 
sätzlich zu den abgelegten Lehrveranstaltungsprüfungen dazu gezählt. Mit 
Ausnahme der HAK-Absolventen müssen diese Ergänzungsprüfungen fast al- 
le anderen Studienanfänger ablegen. Näheres zu den Studienplänen und zur 
Prüfungsordnung an der WU kann auf der Internet-Startseite der WU nach- 
gelesen werden (http://www.wu-wien.ac.at). 


10.2 Ergänzende Daten aus einer Befragung 


Als vorrangiges Ziel der vorliegenden Arbeit wurde im ersten Kapitel die Er- 
mittlung von Einflussfaktoren auf die Studiendauer und das Studienabbruch- 
Risiko genannt. In der Hörerevidenz sind nur einige wenige Merkmale vor- 
handen, die potentielle Erklärungsfaktoren der beiden Größen sind. Varia- 
blen, von denen vermutet werden kann, dass sie die Studiendauer oder das 
Studienabbruch-Risiko beeinflussen, müssen ergänzend erhoben werden. Im 
ersten Teil dieser Arbeit ist diskutiert worden, dass das Weglassen potenti- 
eller Einflussgrößen zu Verzerrungen der Parameterschätzer der einbezogenen 
Variablen führen kann. 


Beispielsweise besteht ein hohes Interesse der Universitätsleitung, aktuelle und 
detaillierte Aussagen zum Studienverhalten und -erfolg von berufstätigen und 
nicht-berufstätigen Studierenden der Wirtschaftsuniversität zu erhalten. Da 
die Berufstätigkeit zusätzlich zu den in der Hörerevidenz zur Verfügung ste- 
henden Variablen als potentieller Einflussfaktor auf die Studiendauer und das 
Studienabbruch-Risiko vermutet wird, wurde eine Befragung zweier WU-Im- 
matrikulationsjahrgänge zu Berufstätigkeit und anderen Faktoren des studen- 
tischen Umfeldes durchgeführt. 


Design der Befragung 


Es ist eine Stichprobe inländischer Immatrikulierter der beiden Winterseme- 
ster 1990/91 und 1993/94 gezogen worden. Zwei Jahrgänge wurden gewählt, 
um Vergleiche zwischen den beiden Kohorten ziehen zu können und um bei 
einer schriftlichen Befragung eine genügend große Stichprobe zu erhalten. Die 
Auswahl der beiden Jahrgänge begründet sich in der Möglichkeit, die Studie- 
renden sehr lange verfolgen zu können. Zusatzstudenten blieben aus den in 
Abschnitt 10.1 genannten Gründen unberücksichtigt. 


Die beiden Jahrgänge wurden (mit Stichtag August 2000) in die drei Schich- 
ten System-Abbrecher, Absolventen und Studierende unterteilt. Unter den 
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(zufällig aus der Grundgesamtheit ausgewählten) System-Abbrechern und Ab- 
solventen wurde die Befragung telefonisch durchgeführt, da das in der Hörerevi- 
denz gespeicherte Adressenmaterial für diese Gruppen nicht aktuell ist und 
deshalb bei einer postalischen Erhebung eine sehr geringe Rücklaufquote und 
stark verzerrte Ergebnisse erwartet wurden. Diese Vermutung ist durch ei- 
ne postalische Pilot-Erhebung verstärkt worden. Da das Adressenmaterial der 
Gruppe der (zum Stichtag noch) Studierenden relativ aktuell ist, wurde ent- 
schieden, die Studierenden aus Kosten- und Zeitgründen postalisch zu befra- 
gen. Die Erhebung erfolgte (auch bei den Studierenden) nicht anonym. 


Zur Frage des Stichprobenumfangs für Ereignisanalysen erwähnt Harrell (1997) 
Simulationsstudien, die gezeigt haben, dass der erwartete Fehler von geschätzten 
Überlebenswahrscheinlichkeiten für p < m/20 kleiner als 0.05 und für p < 
m/10 kleiner als 0.1 war, wobei m die Anzahl der Ereignisse und p die Anzahl 
der zu schätzenden Parameter ist. Da beim vorliegenden Datensatz bei der 
Implementierung von (semi)parametrischen Ereignisdatenmodellen im Grund- 
modell p ~ 15 angenommen werden kann, erfordern die oben angegeben Feh- 
ler zwischen 150 und 300 Ereignisse (=Studienabschlüsse). Wählt man m = 
15p = 225, so sind das knapp 20% aller Absolventen der beiden untersuch- 
ten Jahrgänge bis zum Stichtag. Gemäß dem Anteil an der Grundgesamtheit 
betrug demnach die erwünschte Stichprobengröße für System-Abbrecher etwa 
270 und für Studierende 190. 


Vor allem aufgrund von 


e nicht mehr aktuellen Heimat- bzw. Elternadressen, 


e nicht im Telefonbuch eingetragenen Telefonnummern (Wertkartenhandy, 
Geheimnummern), und 


e nicht aktuellen Telefonnummern im amtlichen Telefonbuch 


waren viele Studienabbrecher und Absolventen nicht oder nur sehr schwer er- 
reichbar. Weniger häufige Gründe für die Nicht-Erreichbarkeit waren bei der 
Hauptstudie, dass 


e die Eltern nicht bereit waren, die Telefonnummer ihres Sohnes oder Tochter 
weiterzugeben, 


e die Eltern keinen Kontakt mehr zu ihrem Sohn oder ihrer Tochter hatten 
und ihnen die Telefonnummer nicht bekannt war, 


e die betreffende Studiennabbrecherin oder Absolventin bereits verstorben ist. 
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Daher wurden aus den beiden Schichten (Absolventen und System-Abbrecher) 
gemäß den Erfahrungen aus der Pilotphase doppelt so viele Individuen wie 
benötigt zufällig ausgewählt und versucht - innerhalb eines vorgegebenen Zeit- 
rahmens — zu interviewen. Die erhaltene Stichprobe wurde dann in einigen 
wesentlichen Merkmalen mit der Grundgesamtheit verglichen, um eventuel- 
le Verzerrungen (bezüglich dieser Merkmale) der Stichprobe gegenüber der 
Grundgesamtheit aufgrund von Nicht-Erreichbarkeit festzustellen und durch 
Nacherhebungen korrigieren zu können. Bezüglich der zusätzlich erhobenen 
Variablen ist natürlich kein Vergleich mit der Grundgesamtheit möglich. 


Bei der postalischen Befragung der Studierenden wurde entsprechend den Er- 
fahrungen nach der ersten Aussendung nur mit einer geringen Rücklaufquote 
von 25-30% gerechnet, und somit zur Erreichung der erwünschten Stichproben- 
größe etwa 70% der Immatrikulierten der beiden Jahrgänge zufällig ausgewählt 
und befragt. 


Tatsächlich betrug der Anteil der verwertbaren (nicht anonym zurückgeschick- 
ten) Fragebögen 26%. Die so erhaltene Stichprobe wurde mit der Grundgesamt- 
heit in einigen Merkmalen verglichen. Aufgrund von überzufälligen Abweichun- 
gen in einigen Merkmalen wurde eine telefonische Nacherhebung durchgeführt, 
um die Abweichungen zu verringern. Abschließende Vergleiche zwischen der 
Grundgesamtheit und der Stichprobe werden in den folgenden Kapiteln be- 
schrieben. 


Inhalt der Befragung 
Die Befragung betraf folgende Themen: 


e Abschluss-Schulnoten aus Mathematik und Englisch 
e Abschlussabsicht zu Studienbeginn 


e zweite Ausbildung (zweites Studium außerhalb der Wirtschaftsuniversitat, 
Fachhochschule, College, Lehrgang, etc.) neben dem WU-Studium; die Er- 
hebung erfolgte je Semester und fragte nach Ausbildungen, die durchschnitt- 
lich mindestens fünf Wochenstunden im Semester Zeitaufwand bedeuteten. 
Zusätzlich wurde nach der vorwiegenden Art der zweiten Ausbildung und 
ihrem Bezug zum WU-Studium gefragt. 


e (studienbezogene) Auslandssemester 


e Berufsintensität während der Studienzeit an der Wirtschaftsuniversität (kei- 
ne Ferientätigkeit); die Erhebung erfolgte je Semester im durchschnittlichen 
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Tabelle 10.1: Vergleich der Definitionen der Studiendauer entsprechend den 
Definitionen (a), (b) und (c) für die befragten Studierenden 


Mittelwert | Std.abw. 


Studienabbrecher 6 entsprechend (a) (al 5.2 
9 


2 
ni entsprechend (b) 3.4 


6 
8 
entsprechend (c) 6 3.5 
Absolvent 250 | entsprechend (a) 12.9 2.7 
FE erane (O 


Wochenstundenausmaß. Ergänzend wurde nach dem vorwiegenden Grund 
für die Erwerbstätigkeiten gefragt. 


3. 
3. 


e Betreuung von Kindern während des WU-Studiums (je Semester) 
Auch zwei offene Fragen nach 


e selektiven Prüfungen im ersten und zweiten Studienabschnitt, und 


e Maßnahmen, die nach Ansicht der Befragten die Universitätsleitung treffen 
müsste, um die Studiendauer zu verkürzen, 


enthält der Fragebogen. Studienabbrecher wurden zusätzlich nach der vorwie- 
genden Tätigkeit nach dem Abbruch und ihrem Bezug zum abgebrochenen 
WU-Studium und zum Zeitpunkt der Befragung noch Studierende nach ih- 
rer Abschlussabsicht befragt. Mehrfachnennungen waren bei den Fragen nach 
der vorwiegenden Art der zweiten Ausbildung, der Hauptursache für die Er- 
werbstätigkeit und der vorwiegenden Tätigkeit nach dem Studienabbruch nicht 
möglich. 


Die Studiendaten betreffend wurde weiters nach dem Studienstatus (abge- 
schlossen, abgebrochen, im Gange) zum Befragungszeitpunkt und gegebenen- 
falls nach dem Abbruch- bzw. Abschlussdatum gefragt. Für die Befragungsda- 
ten wurde dann auf Basis dieser Informationen eine weitere Definition (c) für 
die Studiendauer und für die Dauer bis zum Studienabbruch eingeführt. 


(c) Die Studiendauer bzw. die Dauer bis zum Studienabbruch ist die Zeit zwi- 
schen Studienbeginn und dem im Fragebogen angegeben Datum des Studien- 
abschlusses bzw. Studienabbruchs. 


Wie erwartet zeigt Tabelle 10.1, dass bei den Absolventen zwischen der im 
Fragebogen angegebenen Studiendauer und der im System vermerkten Zeit 
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zwischen Studienbeginn und Studienende kaum Unterschiede auftreten. Bei 
den Studienabbrechern überschätzt die Definition (a) die Studiendauer bis 
zum Studienabbruch wie erwartet (um etwa drei Semester) deutlich. Die ent- 
sprechend den Definitionen (b) und (c) ermittelten Werte unterscheiden sich 
nur minimal. Dies zeigt, dass die Definition (b) die eigentliche Dauer bis zum 
Studienabbruch von Immatrikulierten gut schätzt. 


Der für jeden Studierenden der inländischen Immatrikulierten der Winterse- 
mester 1990/91 und 1993/94 erzeugte Datensatz aus der Hörerevidenz, der 


e für Absolventen die Studiendauer als Zeitraum zwischen dem Datum des 
Studienbeginns an der WU und dem des (ersten) Abschlusses eines WU- 
Studiums (entsprechend Definition (a)) 


e für Studienabbrecher die Dauer bis zum Studienabbruch entsprechend den 
Definitionen (a) und (b) 


e für Studierende die Studiendauer als Zeitraum zwischen dem Datum des 
Studienbeginns an der WU und dem Stichtag (rechts-zensierte Zeitdauer) 


e die Studienstatus-Indikatorvariable (abgeschlossen, abgebrochen, noch im 
Gange), wobei für die beiden Studienabbruch-Definitionen (A) und (B) je- 
weils zwei Indikatorvariablen erzeugt wurden, sowie 


e die aus den Stammdaten und Prüfungsdaten gebildeten Variablen 


enthält, wurde mit den entsprechenden Daten aus der Befragung anhand der 
(abgefragten) Matrikelnummer zusammengeführt. Bei den semesterweise erho- 
benen zeitveränderlichen Variablen wie der Berufsintensität (in durchschnittli- 
chen Wochenstunden), dem parallelen Betreiben einer zweiten Ausbildung und 
der Kinderbetreuung geht jedes Semester von Studienbeginn bis zum Ende des 
Beobachtungszeitraums als eigenes Merkmal ein. Der Fragebogen findet sich 
im Anhang B. 
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Kapitel 11 


Deskriptive Analysen 


Wie im letzten Kapitel erwähnt, wird in der vorliegenden Arbeit einerseits auf 
die Systemdaten von (inländischen) Immatrikulationsjahrgängen der Winter- 
semester 1989/90 bis 1993/94 und andererseits auf die Befragungsdaten der 
beiden Immatrikulationjahrgänge der Wintersemester 1990/91 (im weiteren 
“Jahrgang 1990”) und 1993/94 (“Jahrgang 1993”) eingegangen. Diese beiden 
Studieneingangs-Kohorten werden in diesem Abschnitt hinsichtlich des Stu- 
dienfortschritts (zum Stichtag) analysiert. Ziel dieser Analysen ist neben ei- 
ner Beschreibung des Datensatzes ein erstes Aufzeigen von Zusammenhängen 
zwischen Studienerfolg (-dauer und -abbruch) und den verfügbaren potentiell 
erklärenden Variablen. Diese univariaten Analysen dienen den multivariaten 
Analysen der Kapitel 12 und 13 als Vorstudie. 


Ergebnisse von Analysen von Absolventenjahrgängen (und Studienabbrecher- 
Jahrgängen) werden in dieser Arbeit nicht explizit präsentiert, können jedoch 
im Forschungsbericht Hackl und Sedlacek (2002) nachgelesen werden. 


11.1 Beschreibung des Studienfortschritts 


Analyse der gesamten Population 


In Tabelle 11.1 wird der Studierstatus bzw. -fortschritt der Jahrgänge 1990 
und 1993 zum Stichtag (31.12.00) beschrieben. Unter dem Begriff System- 
Abbrecher werden Studienabbrecher gemäß Definition (A) aus Abschnitt 10.1 
verstanden; System-Abbrecher sind somit Studierende, die vor dem Stichtag 
ihre an der Wirtschaftsuniversität begonnenen Studien abgebrochen haben. 
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Tabelle 11.1: Studienfortschritt und Studierstatus der Jahrgänge 1990 und 
1993 per 31.12.2000 


nn | Jahrgang 1990 | Jahrgang 1993 
Inländische Immatrikulierte | 2015 100% | 1557 100% 


nach Studienfortschritt 
mind. eine Leistung 
mind. eine pos. Leistung 
mind. eine pos. VP/DP 
im zweiten Abschnitt 
nach Studierstatus 
Absolventen 
System-Abbrecher 
Studierende 


Tabelle 11.2 beschreibt den Studierstatus der System-Abbrecher und der zum 
Stichtag noch (aktiven und nicht-aktiven) Studierenden (entsprechend den De- 
finitionen aus Abschnitt 10.1) näher. 


Tabelle 11.2: Studienfortschritt der System-Abbrecher und der Studierenden 
per 31.12.2000 


| Jahrgang 1990 | Jahrgang 1993 
System-Abbrecher 873 100% |535 100% 


nach Studienfortschritt 
mind. eine Leistung 538 62% | 363 68% 
mind. eine pos. Leistung | 441 51% |276 52% 
mind. eine pos. VP/DP | 132 15% 48 9% 
im zweiten Abschnitt 18 2% 4 1% 


387 100% | 615 100% 


nach Studienfortschritt 
mind. eine Leistung 
mind. eine pos. Leistung | 376 
mind. eine pos. VP/DP | 332 
im zweiten Abschnitt 


Die Tabellen 11.1 und 11.2 geben einen ersten groben Eindruck über Abschluss- 
und Abbruchquoten sowie über die Studiendauer von inländischen WU-Imma- 
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trikulierten. Etwa 20% der Immatrikulierten der beiden Jahrgänge haben bis 
zum Stichtag keine einzige Lehrveranstaltung an der Wirtschaftsuniversität 
positiv absolviert. An diesen Zahlen wird sich kaum mehr etwas ändern, weil 
fast alle derzeit noch Studierenden bisher schon mindestens eine positive Lei- 
stung erbracht haben. Zum Stichtag macht diese Gruppe etwa 50% der System- 
Abbrecher aus. Dieser Anteilswert wird zwar noch kleiner werden, da in den 
nächsten Jahren fast ausschließlich Studierende mit mindestens einer positi- 
ven Leistung abbrechen werden, jedoch liefern die vorliegenden Tabellen einen 
ersten Eindruck, wie die Studienabbrecher an der Wirtschaftsuniversität nach 
Studierstatus verteilt ist. 


Je mehr Leistungen gebracht werden - etwa das positive Ablegen einer Vor- 
bzw. Teildiplomprüfung oder die Absolvierung des ersten Studienabschnitts —, 
umso geringer ist die Wahrscheinlichkeit eines WU-Studienabbruchs. Analy- 
sen von Studienabbrechern eines bestimmten Zeitraums, etwa aller System- 
Abbrecher des Studienjahres 1999/2000, können Aufschlüsse über die Vertei- 
lung der Studiendauer und des Studienfortschritts von Studienabbrechern lie- 
fern; siehe Hackl und Sedlacek (2002). 


Zu beachten ist weiters, dass der Anteil der Immatrikulierten mit wenig Lei- 
stungen fiir den Jahrgang 1993 geringer als fiir den Jahrgang 1990 ist. Trend- 
aussagen sind jedoch nur durch Vergleiche von mehreren Jahrgängen möglich. 


Tabelle 11.3 beschreibt den Studienfortschritt der Studienabbrecher entspre- 
chend der im Abschnitt 10.1 angeführten Definition (B) für den Studienab- 
bruch, das sind System-Abbrecher und nicht-aktive Studierende. 


Tabelle 11.3: Leistungen der System-Abbrecher und nicht-aktiven Studieren- 
den 


Jhg. 1990 Jhg. 1993 
System-Abbrecher und n.a. Studierende | 1018 100% | 697 100% 


nach Studienfortschritt 
mind. einer Leistung 675 66% | 514 74% 


mind. einer pos. Leistung 575 56% |417 60% 
mind. einer pos. VP/DP 236 23% | 132 19% 
erstem Abschnitt 50 5% 9 1% 


Mit der Definition (B) für den Studienabbruch erhöht sich die Zahl der Studi- 
enabbrecher zum Stichtag (gegenüber der Zahl der System-Abbrecher) für den 
Jahrgang 1990 von 43% auf 51% und für den Jahrgang 1993 von 34% auf 45% 
der Immatrikulierten. 
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Tabelle 11.4 zeigt die Verteilung der positiven Lehrveranstaltungsprüfungen 
und Vor- bzw. Teildiplomprüfungen für die System-Abbrecher, die nicht-aktiven 
und aktiven Studierenden sowie für Absolventen der beiden Jahrgänge. 


Tabelle 11.4: Leistungsprofil der Jahrgänge 1990 und 1993 nach Studierstatus 


System-Abbr. | n.a. Stud. | akt. Stud. Absolv. 
pos. Leistungen 

Mittelwert 18.4 12.3 
Standardabw. 10.4 8.7 
Median 17 13 
pos. VP/DP 

Mittelwert 
Standardabw. 


Median 


11.8 11.8 
0.8 0.7 
12 12 


An Tabelle 11.4 ist zu erkennen, dass die nicht-aktiven Studierenden ein bes- 
seres durchschnittliches Leistungsprofil als die System-Abbrecher aufweisen — 
bedingt durch die vielen System-Abbrecher ohne Leistungsnachweise — aber 
auch ein weitaus schlechteres als die aktiven Studierenden. Dies ist ein Hin- 
weis dafiir, dass die Definition (B) fiir den Studienabbruch geeignet ist. Das 
Leistungsprofil der aktiven Studierenden, die sich zu 70% im zweiten Studien- 
abschnitt befinden, im Vergleich mit dem der Absolventen deutet daraufhin, 
dass vermutlich die Mehrheit diese Kategorie noch ihr Studium abschließen 
wird. 


Analyse der Stichprobe 


Ergänzend wurde auch der Studienfortschritt der unter den inländischen Im- 
matrikulierten der Wintersemester 1990 und 1993 gezogenen Stichprobe (siehe 
Abschnitt 10.2) untersucht. Die Ergebnisse geben Aufschluss darüber, inwie- 
fern sich die Stichprobe von der Grundgesamtheit betreffend Studienfortschritt 
unterscheidet. 


Tabelle 11.5 zeigt die Häufigkeitsverteilung der Stichprobe nach den am Stich- 
tag gebildeten Schichten System-Abbrecher, Studierende und Absolventen und 
nach Jahrgang. Die Stichprobenanteile der drei Schichten können mit den An- 
teilswerten der Grundgesamtheit (siehe Tabelle 11.1) verglichen werden. Die 
Nullhypothese, dass die Stichprobenanteile gleich den entsprechenden Anteilen 
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der Grundgesamtheit sind, kann unter Verwendung eines x?-Anpassungstests 
nicht verworfen werden (p = 0.2). 


Tabelle 11.5: Verteilung der Stichprobe nach Studierstatus und Jahrgang 


gesamt Jhg. 1990 | Jhg. 1993 
Absolventen 250 36% | 155 40% | 95 30% 
System-Abbrecher | 260 37% | 160 41% | 100 32% 


Studierende 193 27% | 74 19% | 119 38% 


Ergänzend zu den Auswertungen aus Tabelle 11.5 wurden für die Stichpro- 
be Analysen zum Studienfortschritt entsprechend den Tabellen 11.1 und 11.2 
durchgefiihrt und die Ergebnisse mit der Grundgesamtheit verglichen - mit 
dem Schluss, dass die betrachtete Stichprobe den Studienfortschritt betreffend 
keine iiberzufalligen Abweichungen von der Grundgesamtheit zeigt. Ein Ver- 
gleich der Verteilungen der Stichprobe und der gesamten Population beziiglich 
der demographischen Merkmale Geschlecht, Schultyp und Alter zeigte eben- 
falls keine überzufälligen Unterschiede (siehe auch Abschnitt 11.2). 


Zählt man zu den System-Abbrechern auch die nicht-aktiven Studierenden 
dazu, dann erhöht sich die Zahl der Studienabbrecher für den Jahrgang 1990 
(um 21) auf 181 (47%) und für den Jahrgang 1993 (um 16) auf 116 (37%). Von 
diesen 37 nicht-aktiven Studierenden stufen sich selbst sechs bei der Befragung 
als Studienabbrecher ein (mit Angabe des Abbruchdatums). Drei Studierende 
sehen sich zwar als Studierende, geben aber an, das Studium nicht abschließen 
zu wollen, und weitere zehn sind sich nicht sicher, ob sie ihr WU-Studium noch 
abschließen wollen. Die restlichen 18 (49%) nicht-aktiven Studierenden geben 
zwar an, dass sie das Studium noch abschließen wollen, aber ihr Leistungsprofil 
(durchschnittlich 1.5 positive Vor- bzw. Teildiplomprüfungen) lässt eher darauf 
schließen, dass sie potentielle Studienabbrecher sind. Von den restlichen 154 
(aktiven) Studierenden stuft sich selbst niemand als Studienabbrecher ein. Drei 
(aktive) Studierende geben an, dass sie ihr Studium nicht abschließen möchten, 
und fünf (3%) sind sich nicht sicher. Dies ist eine weitere Bestätigung dafür, 
dass die Definition (B) für den Studienabbruch passend ist und daher eine 
plausiblere Schätzung für die Abbruchquote zum Stichtag erlaubt. 


Für die in der vorliegenden Arbeit durchgeführten Analysen der Stichprobe 
wurden zusätzlich zu den 260 System-Abbrechern auch jene sechs Studieren- 
den, die sich im Fragebogen selbst als Abbrecher einstuften, zu den Studienab- 
brechern addiert. 
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Tabelle 11.2 hat gezeigt, dass mit Stichtag etwa ein Drittel der System-Abbre- 
cher (ca. 15% aller Immatrikulierten) keine einzige Leistung und knapp die 
Hälfte der System-Abbrecher (etwa 20% aller Immatrikulierten) keine positive 
Leistung in ihrem WU-Studium erbracht haben. Bei diesen Personen ist zu hin- 
terfragen, ob sie überhaupt als wirkliche WU-Studienanfänger definiert werden 
können. Daher wurde in der Befragung auch die Frage gestellt, ob zu Studien- 
beginn tatsächlich die Absicht bestanden hat, das Studium zu beenden oder 
nicht; vgl. Schneider und Weiländer (1990). Für die 266 Studienabbrecher in 
der Stichprobe zeigt Tabelle 11.6 die in der Befragung geäußerte Abschlussab- 
sicht. 


Tabelle 11.6: Abschlussabsicht der Studienabbrecher zu Studienbeginn 


BY Abschlussabsicht zu Studienbeginn 


Studienabbrecher (266) 67.7% | 30.4% 
Studienabbrecher ohne Leistung (80) | 50.0% | 46.3% 


Die Tabelle zeigt, dass der Anteil der Personen, die sich zu Studienbeginn nicht 
sicher waren, ob sie das begonnene WU-Studium auch abschließen wollen, un- 
ter den Studienabbrechern ohne Leistung deutlich höher ist als unter allen 
Studienabbrechern. Insgesamt war sich nur jeder zweite befragte Studienab- 
brecher ohne Leistung zu Studienbeginn sicher, das Studium auch abschließen 
zu wollen. Allerdings ist darauf hinzuweisen, dass die Ergebnisse aufgrund des 
retrospektiven Erhebungsdesigns verzerrt sein können. 


Für die folgenden Kreuztabellen gilt, dass sich die Anteilswerte in der zweiten 
Zeile jeder Zelle auf die gesamte Stichprobe, die Werte in der dritten Zeile auf 
die Zeilensumme (Spalte “Total”) und die Anteile in der vierten Zeile auf die 
Spaltensumme (Zeile “Total”) beziehen. 


Die Studienabbrecher wurden auch nach ihrer Hauptaktivität im ersten Jahr 
nach dem WU-Studium und deren Bezug zur Wirtschaftsuniversität gefragt. 
Tabelle 11.7 zeigt, dass knapp 60% der Studienabbrecher angeben, dass sie im 
ersten Jahr nach ihrem Studienabbruch hauptsächlich einer Erwerbstätigkeit 
(Aktivität 3) nachgegangen sind - davon mehr als 50% mit WU-Bezug. Et- 
wa ein Viertel der Studienabbrecher hat zu einem Studium an einer anderen 
Universität gewechselt (Aktivität 1) - großteils (71%) zu einer Studienrichtung 
ohne Bezug zum WU-Studium. Aktivität 2 in der Tabelle bezeichnet eine ande- 
re Ausbildung als ein Universitätsstudium (z.B. Lehrgang, Fachhochschule). In 
der Aktivität 4 wurde meist Karenz, Mutterschaft oder ähnliches angegeben. 
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Tabelle 11.7: Verteilung der Studienabbrecher nach Hauptaktivität (1: Uni- 
versitätsstudium; 2: Lehrgang, FH; 3: Erwerbstätigkeit; 4: sonstige Aktivität) 
nach dem Studienabbruch und ihr Bezug zum WU-Studium 


122 
46.04 


131 
1.13 
2.29 
33.33 
Bezug missing | 0 0 7 5 12 
0.00 | 0.00 | 2.64 | 1.89 | 4.53 
0.00 | 0.00 | 58.33 | 41.67 
0.00 | 0.00 | 4.46 | 55.56 


Total 70 29 157 9 65 
26.42 | 10.94 | 59.25 | 3.40 


00.00 

Unterscheidet man zwischen Studienabbrechern, die nach eigenen Angaben in 
den ersten beiden Studiensemestern an der WU abgebrochen haben (“Frühab- 
brecher”) oder später, so erhält man die Tabelle 11.8. Wie erwartet ist unter 
den “Frühabbrechern” der Anteil jener, die das Studium wechseln, fast dop- 
pelt so hoch (35%) wie unter den Studienabbrechern, die nach dem zweiten 
Semester abgebrochen haben (18%). An der Randverteilung der binären Va- 
riablen “Frühabbruch” (Spalte “Total”) ist weiters zu erkennen, dass etwa die 
Hälfte der befragten Studienabbrecher angibt, in den ersten beiden Semester 
abgebrochen zu haben. Dieser Anteilswert wird sich noch etwas nach unten 
verändern, bestätigt aber die bisherigen Analysen, dass der Studienabbruch 
an der WU zu einem hohen Prozentsatz sehr früh im Studium erfolgt. 


= N 


11.2 Analyse des Studienfortschritts in Abhän- 
gigkeit von demographischen Variablen 


In diesem Abschnitt werden die beiden Immatrikulationsjahrgänge 1990 und 
1993 anhand der im System verfügbaren Variablen Geschlecht, Alter (zu Stu- 
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Tabelle 11.8: Verteilung der Studienabbrecher nach Hauptaktivität (1: Univer- 
sitätsstudium; 2: Lehrgang, FH; 3: Erwerbstätigkeit; 4: sonstige Aktivität) im 


Jahr nach dem Studienabbruch und dem Zeitpunkt des Studienabbruchs 
Ak 
~oo n p p a ma 

Kein Frühabbruch | 24 5 135 
1.89 | 50.94 
3.70 
55.56 

Frühabbruch 4 130 
1.51 | 49.06 
3.08 7 
44,44 

Total 70 29 157 |9 265 

T Tasa2 | 109a | 5025 [30 | 00 
dienbeginn) und Schultyp näher beschrieben. Die Tabelle 11.9 beschreibt die 

Verteilung der inländischen Immatrikulierten der beiden betrachteten Jahrgän- 

ge und der Stichproben-Population nach diesen drei Variablen. Ein Vergleich 

der beiden Tabellen zeigt keine überzufälligen Unterschiede in den Verteilun- 
gen der betrachteten Variablen. 

Um den Zusammenhang zwischen demographischen Variablen und dem Stu- 

dienerfolg bzw. -fortschritt zu analysieren, werden in diesem Abschnitt Kreuz- 

tabellen der demographischen Variablen mit dem Studierstatus verwendet. 

Diese univariaten Analysen können erste Hinweise über die Bedeutung ein- 


zelner Variablen für detaillierte (multivariate) Analysen der Studiendauer und 
des Studienabbruch-Risikos geben. 


In Tabelle 11.10 wird für den (inländischen) Immatrikulationsjahrgang des 
Wintersemesters 1993 der Zusammenhang zwischen Schultyp und Studiersta- 
tus (zum Stichtag) gezeigt. 


Die Tabelle zeigt, dass es zwischen den Immatrikulierten je nach absolvier- 
ter Schulausbildung Unterschiede in der Verteilung nach dem Studierstatus 
gibt. Beim Vergleich von AHS- und HAK-Maturanten ist zum Stichtag eine 
annähernd gleiche Abbruchquote (ca. 30%), jedoch eine um fast 10% höhere 
Abschlussquote von HAK-Absolventen abzulesen. Dies lässt einen ersten (gro- 
ben) Schluss zu, dass HAK-Absolventen (bei etwa gleicher Abbruchquote) das 
Studium schneller abschließen. Ein Vergleich von HTL- und HAK-Absolventen 
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Tabelle 11.9: Verteilungen der untersuchten Population und der Stichproben- 
Population nach den Variablen Geschlecht, Alter und Vorbildung 


gesamte Population Jhg. 1993 


Geschlecht 
weiblich 47.4% 47.4% 47.5% 
männlich 52.6% | 52.6% 52.5% 
Vorbildung 


AHS 
HAK 
HTL 
HLA 
Sonstige 
Alter (zu Studienbeginn) 


Mittelwert 20.3 20.2 20.5 
Standardabweichung 2.7 2.5 3.1 
Median 19.6 


Stichproben-Population Jhg. 1990 | Jhg. 1993 


Geschlecht 
weiblich 47.0% 47.0% 46.8% 
männlich 53.0% 53.0% 53.2% 


Vorbildung 
AHS 
HAK 
HTL 
HLA 
Sonstige 
Alter (zu Studienbeginn) 
Mittelwert 
Standardabweichung 
Median 


lässt darauf schließen, dass HTL-Absolventen nicht nur eine höhere Abbruch- 
quote haben, sondern auch länger für den Studienabschluss brauchen. Geht 
man etwa von der Annahme aus, dass ein Großteil jener Studierenden, die 
zum Stichtag bereits im zweiten Abschnitt sind (“Student1”), das Studium 
noch abschließen wird, während jene, die bis zum Stichtag den ersten Ab- 
schnitt noch nicht absolviert haben (“Student0”), das Studium größtenteils 
abbrechen werden, dann kann man aus der Tabelle ablesen, dass von den 
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Tabelle 11.10: Verteilung des Jahrgangs 1993 nach Vorbildung und Studier- 
status (Student0: im ersten Abschnitt, Studentl: im zweiten Abschnitt) per 
31.12.2000 


Studierstatus 


Schultyp 
SON? | saa aire Total 


AHS 648 
41.62 


457 
29.35 
14 16 77 
2.44 0.58 0.90 1.03 4.95 
49.35 11.69 18.18 20.78 
7.10 3.10 4.31 3.93 
326 
20.94 
Sonstige | 25 49 
1.61 0.64 0.32 0.58 3.15 
51.02 20.41 10.20 18.37 
4.67 3.45 1.54 2.21 


Total 535 290 325 407 1557 
34.36 18.63 20.87 26.14 100.00 


HAK-Maturanten bis zum Stichtag (nach ca. 14 Semester) etwa 2/3 der zu 
erwartenden Absolventen fertig geworden sind, während dieser Anteilswert bei 
den HTL-Absolventen (ähnlich wie bei den AHS-Absolventen) nur etwa bei 
50% liegt. Analysen von Absolventenjahrgängen liefern ähnliche Aussagen be- 
treffend Studiendauer; siehe Hackl und Sedlacek (2002). 


(Deskriptive) Analysen der Studiendauer und des Studienabbruchs mit Hilfe 
von Kreuztabellen können nur erste Hinweise für potentielle Einflussgrößen 
geben. Folgende Punkte müssen bei der Interpretation der Kreuztabellen be- 
achtet werden: 
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e Einflussgrößen werden nur separat (univariat) und nicht simultan (multiva- 
riat) betrachtet, dadurch können Abhängigkeiten zwischen Variablen nicht 
berücksichtigt werden. 


e Es wird nicht die (verfügbare) Information der exakten Studiendauer der 
Absolventen (und auch nicht der Dauer bis zum Abbruch) genützt, son- 
dern nur unterschieden, in welchem Studierstatus sich der Studierende zum 
Stichtag befindet; die Zustände könnten natürlich noch beliebig verfeinert 
werden, die Interpretation wird dadurch jedoch komplexer. 


e Aussagen über den Zusammenhang der Variablen mit der Studiendauer und 
der Studienabbruchquote setzen Annahmen über den weiteren Verlauf der 
Gruppe der zum Stichtag noch Studierenden voraus. 


Neben den Zusammenhängen zwischen Schultyp und Studierstatus ist aus Ta- 
belle 11.10 auch die Verteilung des Jahrgangs 1993 nach dem Matura-Schultyp 
(Randverteilung) in der Spalte “Total” und die Verteilung nach dem Studier- 
status in der Zeile “Total” abzulesen. So haben knapp 42% der (inländischen) 
Immatrikulierten des Wintersemesters 1993 an einer AHS maturiert und knapp 
30% an einer HAK; vgl. auch Tabelle 11.9. Zum Stichtag (nach etwa 14 Seme- 
ster) zählen mehr als ein Viertel der Immatrikulierten zu den Absolventen und 
mehr als ein Drittel zu System-Abbrechern. Fast jeder fünfte Immatrikulierte 
befindet sich (offiziell) noch im ersten Abschnitt; vgl. auch Tabelle 11.1. Die 
für den Jahrgang 1993 getroffenen Aussagen konnten auch für die Jahrgänge 
1990 bis 1992 bestätigt werden. 


Neben den im System verfügbaren demographischen Variablen wie dem Ge- 
schlecht, dem Alter zu Studienbeginn und dem Schultyp wurden weitere Va- 
riablen erhoben, die nur für die Stichprobe verfügbar sind; siehe Abschnitt 
10.2. 


Die Häufigkeitsverteilung der in der Stichprobe erhobenen Population nach den 
Schul-Abschlussnoten aus Mathematik und dem Studierstatus (zum Stichtag) 
ist in Tabelle 11.11 (über die beiden betrachteten Immatrikulationjahrgänge 
aggregiert) dargestellt. Die Tabelle lässt einen Zusammenhang zwischen der 
Schul-Abschlussnote aus Mathematik und dem Studienerfolg vermuten. So ha- 
ben etwa zwei Drittel der Absolventen zum Stichtag in Mathematik mit den 
Noten Eins oder Zwei abgeschlossen, während dies bei den Studienabbrechern 
und den Studierenden nur etwa die Hälfte sind. Vier Befragte konnten sich 
nicht mehr an ihre Abschlussnoten aus Mathematik und Englisch erinnern. 


Beinahe analoge Ergebnisse (und Interpretationen) erhält man für die Schul- 
Abschlussnote aus Englisch (siehe Tabelle 11.12). Dies lässt den Schluss zu, 
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Tabelle 11.11: Verteilung der Stichproben-Population nach der Schul- 
Abschlussnote in Mathematik und dem Studierstatus per 31.12.2000 


Mathe- 
Noten r | Stadentd | Sewdenid TAE 


= 


| Studierstatus — — e| 
Total 
17 16 TT 


149 
21.32 
230 
32.90 
235 
33.62 
3 


3.29 ne 
27.06 
9.20 


Total 263 83 103 250 699 
37.63 11.87 14.74 35.77 100.00 


dass es zwischen dem Studienerfolg und den Schulleistungen einen Zusammen- 
hang gibt. 


Die Variablen “zweite Ausbildung”, “Auslandssemester”, “Berufstätigkeit” und 
“Kinderbetreuung” wurden als zeitabhängige Variablen erhoben; siehe Ab- 
schnitt 10.2. Der dynamische Aspekt dieser Variablen wird in den Kapiteln 
12 und 13 berücksichtigt. Bei der deskriptiven Analyse dieser Variablen ist zu 
beachten, dass die Werte dieser Variablen für den Stichtag gelten. Mit Fort- 
schreiten der Zeit können sich sowohl der Studierstatus als auch die Werte der 
Variablen der (zum Zeitpunkt der Erhebung noch) Studierenden verändern. 


Tabelle 11.13 zeigt, wieviele der Befragten (bis zum Befragungszeitpunkt) 
während ihrer WU-Studienzeit zumindest ein Semester lang (mit einem durch- 
schnittlichen Zeitaufwand von mindestens fünf Wochenstunden) eine weitere 
Ausbildung neben ihrem WU-Studium besuchten. 


Etwas weniger als ein Viertel der Befragten gibt an, parallel zum WU-Studium 
(bis zum Befragungszeitpunkt) eine weitere Ausbildung besucht zu haben. Da 
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Tabelle 11.12: Verteilung der Stichproben-Population nach der Schul- 
Abschlussnote in Englisch und dem Studierstatus per 31.12.2000 


Englisch- Studierstatus 
Noten Studienabbrecher Total 


4 


Total 263 
37.63 11.87 


viele Studienabbrecher nur sehr kurz an der Wirtschaftsuniversität waren, ist 
es nicht überraschend, dass nur etwa 10% der Studienabbrecher während ihrer 
WU-Studienzeit zumindest ein Semester lang auch eine weitere Ausbildung 
besuchten. Interessanter ist der Unterschied zwischen Absolventen (18%) und 
Studierenden des ersten und zweiten Studienabschnitts (51% bzw. 37%), der 
zeigt, dass “Langzeitstudierende” häufiger neben ihrem WU-Studium auch eine 
zweite Ausbildung besucht bzw. zumindest probiert haben. Bei der Interpreta- 
tion muss allerdings beachtet werden, dass anhand dieser Tabelle allein nicht 
der kausale Schluss möglich ist, dass sich der Besuch einer zweiten Ausbildung 
verlängernd auf die Studiendauer auswirkt. Dazu ist die Berücksichtigung der 
Variablen “zweite Ausbildung” als zeitabhängige Variable notwendig, wie dies 
in einem Freignisdatenmodell möglich ist; siehe Abschnitt 6.3. 


Tabelle 11.14 gibt einen Überblick über die Art der neben dem WU-Studium 
parallel besuchten Ausbildung und die Einschätzung der Befragten, ob diese 
Ausbildung einen Bezug zu ihrem WU-Studium hat oder nicht. Die Bildungs- 
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Tabelle 11.13: Verteilung der Stichproben-Population nach dem Besuch einer 
zweiten Ausbildung und dem Studierstatus per 31.12.2000 


Ausbildung Studierstatus 
Studienabbrecher Total 


46 157 
6.54 22.33 
29.30 

18.40 


41 546 
5.83 ; 77.67 
7.51 

48.81 


angebote “Fachhochschule” und “College” wurden in Tabelle 11.14 wegen ge- 
ringer Fallzahlen mit der Kategorie “Sonstige” zusammengefasst. Somit wird 
bei der Bildungsart nur zwischen einem zweiten Universitätsstudium (außer- 
halb der Wirtschaftsuniversität) und “Sonstige” unterschieden. 


Tabelle 11.14: Verteilung der Studierenden mit paralleler Ausbildung nach der 
Art der zweiten Ausbildung und dem Bezug zum WU-Studium per 31.12.2000 


Bildungsart 


Univ.- 
Studium 
10.45 


Sonstige 
53.85 


Total 60 83 13 156 
38.46 53.21 8.33 100.00 


Bis zum Befragungszeitpunkt besuchten (während ihrer WU-Studienzeit) mehr 
als die Hälfte der Befragten mit einem weiteren Bildungsangebot zumindest 


Bezug zum WU-Studium 


6 89 
3.85 57.05 
6.74 
46.15 

67 


7 
4.49 42.95 
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Tabelle 11.15: Häufigkeitsverteilung der Studierenden mit paralleler Ausbil- 
dung nach der Anzahl der für diese Ausbildung beanspruchten Semester 


kumulierte | kumulierte 
Anzahl | Anteil | Anzahl Anteile 
43 43 


76 
95 
118 
157 


ein Semester lang noch ein weiteres Universitätsstudium (zumeist ohne Bezug 
zu ihrem WU-Studium). Sonstige Bildungsformen — häufig sind hier Lehrgänge 
an der Wirtschaftsuniversität angegeben worden — wurden zu mehr als 50% 
mit Bezug zum WU-Studium gewählt. 13 Studierende (8%) gaben nicht an, ob 
das besuchte Bildungsangebot mit Bezug zum WU-Studium war oder nicht, 
und ein weiterer gab die Bildungsart nicht an. 


Tabelle 11.15 gibt einen Überblick, wie intensiv die weiteren Ausbildungen 
betrieben worden sind. Etwa ein Viertel der Studierenden mit zweitem Bil- 
dungsangebot, das sind etwa 6% aller Befragten, hat diese Ausbildung (bis 
zum Befragungszeitpunkt) nur ein Semester parallel zum WU-Studium be- 
sucht. Ein ähnlicher Anteil von Studierenden hat mehr als vier Semester in 
eine weitere Ausbildung parallel zum WU-Studium investiert. 


Zusammenfassend lassen die Tabellen 11.13 und 11.15 den Schluss zu, dass die 
Studierenden der beiden Immatrikulationsjahrgänge eher wenig Zeit für eine 
zweite Ausbildung neben dem WU-Studium investiert haben. Dieses Ergebnis 
ist vergleichbar mit den Auswertungen innerhalb der ÖH-Studie (Grossmann 
et al. (1999b)), in der 83% der befragten Studierenden wirtschaftswissenschaft- 
licher Studienrichtungen angeben, in den letzten beiden Semestern nicht ernst- 
haft eine weitere Studienrichtung betrieben zu haben. 


Tabelle 11.16 zeigt, wieviele Befragte bis zum Befragungszeitpunkt im Zuge 
ihres WU-Studiums zumindest ein Semester lang im Ausland waren (Aus- 
landssemster). An der Tabelle ist vor allem hervorzuheben, dass etwa zwei 
Drittel der Befragten, die ein Auslandssemester angeben, bereits Absolventen 
sind. Unter den Absolventen (zum Stichtag) selbst hat mehr als ein Drittel 
(zumindest) ein Semester im Ausland verbracht. Diese Ergebnisse entsprechen 
den Ergebnissen einer aktuellen Studie des Vizerektorats für internationale 
Beziehungen, in der zwar 50% der Absolventen einen Auslandsaufenthalt im 
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Rahmen des Studiums angeben, aber nur 35% zumindest ein ganzes Semester 
im Ausland verbracht haben; siehe Mautner und Brandenburg (2001). 


Tabelle 11.16: Verteilung der Stichproben-Population nach dem Absolvieren 
eines Auslandssemesters und dem Studierstatus per 31.12.2000 


Auslands- Studierstatus 
semester | Studienabbrecher Total 
ja 


10 9 89 129 
i 1.28 18.35 
: 6.98 
10.71 


12.66 
974 
84 103 250 703 
11.95 14.65 35.06 100.00 


68.99 
35.60 
81.65 

Da die Universitätsleitung großes Interesse an aktuellen Daten zur Berufstätig- 
keit der WU-Studierenden hat, wird diese Variable etwas ausführlicher be- 
schrieben. Tabelle 11.17 zeigt, wieviele Befragte während ihres WU-Studiums 
bis zum Befragungszeitpunkt zumindest ein Semester lang einer Berufstätigkeit 
mit einem durchschnittlichen Zeitaufwand von mindestens fünf Wochenstun- 
den nachgegangen sind. 


Mehr als zwei Drittel der Befragten geben demnach an, während ihrer WU- 
Studienzeit zumindest ein Semester lang einer Berufstätigkeit mit einem durch- 
schnittlichen Zeitaufwand von mindestens fünf Wochenstunden nachgegangen 
zu sein, besonders hoch ist der Anteil dieser Gruppe unter den aktuell Studie- 
renden (ca. 95%). An diesen Anteilswerten wird sich kaum mehr etwas ändern, 
da schon jetzt — wie erwähnt - fast alle (zum Stichtag der Erhebung noch) 
Studierenden während ihres Studiums zumindest ein Semester berufstätig wa- 
ren. Diese Zahlen stärken zwar die Vermutung, dass Erwerbstätigkeit neben 
dem Studium die Studiendauer verlängert. Eine genauere Analyse des Effekts 
der Berufstätigkeit auf die Studiendauer muss die Variable Berufstätigkeit 
zeitabhängig betrachten und die Berufsintensität berücksichtigen. 


In Booth und Satchell (1995) und Yamaguchi (1991) (siehe Abschnitt 9.3) sind 
für die Analyse der Studiendauer und des -abbruchs Ereignisdatenmodelle im- 
plementiert worden. In beiden Studien wurde abgefragt, ob der Studieneintritt 
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Tabelle 11.17: Verteilung der Stichproben-Population nach dem Nachgehen 
einer Erwerbstätigkeit und dem Studierstatus per 31.12.2000 


Erwerbs- Studierstatus 
tätigkeit | Studienabbrecher Total 
j 80 98 


ja 496 
70.55 
207 
1.93 2.42 
4.76 4.85 


29.45 
Total 266 84 103 250 703 
37.84 11.95 14.65 35.56 100.00 


als Teilzeit- oder Vollzeitstudent erfolgt ist, und diese Variable als zeitkonstan- 
tes Merkmal in das Modell aufgenommen. Auch in der ÖH-Studie (Grossmann 
et al. (1999a)) ist dieses Merkmal erhoben worden; siehe Abschnitt 9.1. In der 
vorliegenden Arbeit wurde zwar nicht nach dem Status Teilzeit- oder Vollzeit- 
student zu Studienbeginn gefragt; allerdings können die Befragten nach ihrem 
Erwerbstätigkeitsstatus im ersten Semester unterschieden werden. 


4 
0.57 0.71 


In Tabelle 11.18 wird die Erwerbstätigkeit in die folgenden vier Kategorien 
unterteilt: 


1. nicht berufstätig bei weniger als 5 Wochenstunden 


2. geringfügig beschäftigt bei mindestens 5 und weniger als durchschnittlich 
15 Wochenstunden 


3. teilzeit beschäftigt bei mindestens 15 und weniger als 30 Wochenstunden 


4. vollzeit beschäftigt bei mindestens 30 Wochenstunden 


Ein knappes Drittel (31%) der Befragten ist im ersten Semester zumindest 15 
Wochenstunden berufstätig gewesen (teilzeit oder vollzeit beschäftigt), unter 
den Studienabbrechern (zum Stichtag) und den Studierenden im ersten Ab- 
schnitt ist dieser Anteil jedoch mit 43% bzw. 38% deutlich höher als bei den 
Absolventen und Studierenden im zweiten Abschnitt mit 22% bzw. 20%. Zwei 
Drittel der im ersten Semester Vollbeschäftigten zählen zum Stichtag zu den 
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Tabelle 11.18: Verteilung der Stichproben-Population nach dem Er- 
werbstätigkeitsstatus im ersten Semester und dem Studierstatus per 31.12.2000 


Studierstatus 


Erwerbs- 
Studienabbrecher 
66 


geringfiigig | 21 4 8 

beschaftigt | 2.99 0.57 1.14 
31.82 6.06 12.12 
7.89 4.76 7.84 


nicht 
beschäftigt 


9.40 


417 
59.40 
113 
16.10 


106 
15.10 


teilzeit 
beschaftigt 


vollzeit 
beschäftigt 


Tabelle 11.19: Durchschnittliche Berufsintensität (in Wochenstunden) während 
der WU-Studienzeit nach Studierstatus 


Studienabbrecher | 266 
Student0 
Student1 
Absolvent 


Studienabbrechern. Aus dieser Tabelle lässt sich somit ein erster grober Schluss 
ziehen, dass der Erwerbstätigkeitsstatus im ersten Semester vor allem auf die 
Studienabbruch-Wahrscheinlichkeit einen Einfluss hat. 


Das Berufsausmaß während der WU-Studienzeit — getrennt nach Studierstatus 
zum Stichtag — beschreibt Tabelle 11.19. Die Tabelle macht deutlich, dass die 
Studierenden und die Studienabbrecher (zum Stichtag) während ihrer Studi- 
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enzeit durchschnittlich deutlich mehr Zeit in eine Erwerbstätigkeit investierten 
als die Absolventen - unter den Studierenden gibt es auch deutliche Unterschie- 
de je nach Studienfortschritt. Das durchschnittliche Berufsausmaß während der 
WU-Studienzeit selbst ist mit etwa 15 Wochenstunden ziemlich hoch. 


Tabelle 11.20 zeigt die Verteilung der Antworten auf die Frage nach dem vor- 
wiegenden Grund für die Berufstätigkeit, getrennt nach Studierstatus. Von 
den (berufstätigen) Studienabbrechern und den Studierenden des ersten Stu- 
dienabschnitts geben 61% bzw. 66% Existenzsicherung als Hauptgrund an, 
von den Studierenden im zweiten Abschnitt ist ebenfalls Existenzsicherung der 
häufigste Grund (47%), jedoch weniger häufig genannt als bei den Studierenden 
des ersten Abschnitts; die Absolventen hingegen führen das Zusatzeinkommen 
und auch die Berufschancen noch vor der Existenzsicherung an. 


Tabelle 11.20: Verteilung der Berufstätigen nach dem (vorwiegenden) Grund 
für die Erwerbstätigkeit und dem Studierstatus per 31.12.2000 


Erwerbstätig- 
Existenz- 
sicherung 


Studierstatus 


Total 
53 


228 
145 
90 
18.33 
10.00 
Dt 
Sonstige 10 10 28 
2.04 0.20 1.43 2.04 5.70 
35.71 3.57 25.00 35.71 
6.41 1.25 7.14 6.37 


Total 156 80 98 157 491 
31.77 16.29 19.96 31.98 100.00 


Weiters wurde noch erhoben, ob und wann die Befragten während ihrer WU- 
Studienzeit mit Kindern im gemeinsamen Haushalt lebten. Die Fragestellung 


Studienabbrecher 


Zusatz- 
einkommen 


9 
1.83 


Berufschancen 
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begründet sich in der Vermutung, dass die Betreuung von Kindern viel Zeit- 
aufwand bedeutet und eine Verzögerung des Studiums zur Folge hat bzw. das 
Risiko des Studienabbruchs erhöht. Tabelle 11.21 zeigt, dass (zum Stichtag) 
nur wenig Befragte angeben, während ihrer WU-Studienzeit Kinder betreut 
zu haben. Zwar ist der Anteil von den (zum Stichtag noch) Studierenden mit 
Kinderbetreuung erwartungsgemäß deutlich höher (ca. 14% bzw. 10% je nach 
Studienfortschritt) als bei den Absolventen, doch die geringen Fallzahlen rela- 
tivieren die Bedeutung dieser Variablen. 


Tabelle 11.21: Verteilung der Stichproben-Population nach der Betreuung von 
Kindern und dem Studierstatus per 31.12.2000 


Kinder- Studierstatus 
betreuung Studienabbrecher Total 
ja 

u 

21.62 

3.01 


84 103 250 703 
11.95 14.65 35.06 100.00 


In den beiden folgenden Kapiteln 12 und 13 wird mit Hilfe der im ersten 
Teil dieser Arbeit präsentierten Methoden der Ereignisanalyse der Einfluss 
von demographischen Variablen auf die Studiendauer und das Studienabbruch- 
Risiko detailliert behandelt. 
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Kapitel 12 


Analyse der Studiendauer und 
der Studienabschlussrate mit 
Hilfe von Ereignisdatenmodellen 


Im Mittelpunkt der beiden folgenden Kapiteln steht die Ermittlung von Ein- 
flussgrößen auf die Studiendauer, den Studienerfolg und das Studienabbruch- 
Risiko und ihre Interpretation. Als Datenbasis stehen die in Kapitel 10 defi- 
nierten System- und Befragungsdaten zur Verfügung. 


12.1 Einleitung 


In diesem Kapitel werden log-lineare parametrische Ereignisdatenmodelle (vgl. 
Kapitel 5) auf die vorhandenen Daten der Hörerevidenz (vgl. Abschnitt 10.1) 
angewandt, um die (Verteilung der) Studiendauer für verschiedene Gruppen 
von Studierenden zu schätzen. 


In einem ersten Schritt werden die zu Studienbeginn für jeden Studierenden zur 
Verfügung stehenden Stammdaten herangezogen. Es wird untersucht, ob und 
in welchem Ausmaß diese Variablen Einfluss auf die Studiendauer haben. Da- 
nach werden die im System verfügbaren Prüfungsdaten des ersten Studienjah- 
res hinzugezogen, um zu analysieren, inwiefern die Einbeziehung dieser Daten 
verlässliche Schätzungen der Studiendauer erlauben. Da diese Variablen im Sy- 
stem verfügbar sind, lassen sich derartige Analysen routinemäßig durchführen. 


Im Mittelpunkt der Analysen mit Hilfe von log-linearen parametrischen Mo- 
dellen steht somit das Ziel, die Studiendauer für verschiedene Teilpopulationen 
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von Immatrikulationsjahrgängen zu schätzen und den Einfluss bestimmter Va- 
riablen zu ermitteln. 


Während parametrische Modelle eine Verteilungsannahme für die Studien- 
dauer voraussetzen und die Ergebnisse von der angenommenen Verteilung 
abhängen, benötigen semiparametrische Modelle diese Annahme nicht. Bei der 
Analyse mit semiparametrischen Cox-Modellen interessiert nicht die Vertei- 
lung der Studiendauer, sondern es wird der Frage nachgegangen, welche Varia- 
blen besonderen Einfluss auf die Hazardrate für den Studienabschluss ausüben. 
So weit möglich werden die Ergebnisse der beiden Modellansätze verglichen. 
Zusätzlich steht insbesondere die Implementierung von zeitabhängigen Varia- 
blen im Mittelpunkt. 


Unabhängig von der Modellierung - parametrisch oder semiparametrisch - 
wird in diesem (und im folgenden) Kapitel der im Abschnitt 7.1 behandelte 
competing risks-Ansatz für kontinuierliche Modelle implementiert. Dabei wer- 
den die beiden Ereignisarten Studienabschluss (m = 1) und Studienabbruch 
(m = 2) unterschieden und jene Studierenden, die bis zum Stichtag weder ab- 
gebrochen noch abgeschlossen haben, gehen als Typ I rechts-zensierte Fälle in 
die Schätzung ein. Die beiden Ereignisarten können nicht als unabhängig vor- 
ausgesetzt werden, jedoch ist anzunehmen, dass ein Großteil der Abhängigkeit 
durch das Einbeziehen von geeigneten Kovariablen erklärt werden kann. 


12.2 Analyse der Studiendauer - log-lineare 
parametrische Modelle 


Zu Beginn dieses Abschnitts wird anhand des inländischen Immatrikulation- 
jahrgangs des Wintersemesters 1990/91 (=Jahrgang 1990) detailliert auf die 
Modellentwicklung eingegangen. Ergebnisse werden für diesen Jahrgang und 
ergänzend auch für weitere Immatrikulationsjahrgänge gezeigt. 


Vorstudie: Parametrische Modelle ohne Kovariablen 


In diesem Unterabschnitt wird die Gestalt der durchschnittlichen (übergangs- 
spezifischen) Hazardrate für den Studienabschluss, d.h. ohne Einbeziehung von 
Kovariablen, untersucht. Das Modell, das die beste Anpassung an die Daten 
liefert, wird dann als Basis für die darauffolgenden Analysen verwendet. 


Bei der Modellierung der Dauer bis zum Studienabschluss ist zu beachten, dass 
die Mindeststudiendauer an der Wirtschaftsuniversität acht Semester beträgt. 
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Daher werden die ersten acht Semester als Periode definiert, in der die Hazard- 
rate für den Studienabschluss gleich Null ist. In der Schätzung der Modelle für 
die Studiendauer werden dann nur jene Studierenden berücksichtigt, die länger 
als acht Semester an der Wirtschaftsuniversität studieren; dadurch geht für den 
Jahrgang 1990 die Information von neun Studienabschlüssen (ca. 1% der bis 
zum Stichtag erfolgten Abschlüsse) verloren, die bereits vor Ende des achten 
Semesters erfolgt sind. Diese Periode von acht Semestern wird als Garantiezeit 
(engl. guarantee time) bezeichnet und wird bei der Schätzung der Verteilung 
der Studiendauer berücksichtigt, indem der Beginn der Beobachtungszeit auf 
den Beginn des neunten Semesters gesetzt wird. Die Modellierung erfolgt somit 
in Abhängigkeit der (in Monaten modellierten) Reststudiendauer tı = t — 48. 
Es sei noch erwähnt, dass bei alternativer Implementierung einer Garantiezeit 
von sieben Semestern bei den folgenden Analysen praktisch keine Unterschiede 
in den Ergebnissen aufgetreten sind. Für die folgenden Analysen wurde die 
Studiendauer bis zum Abschluss analog der Definition (a) und die Zeitdauer 
bis zum Studienabbruch analog Definition (b) aus Abschnitt 10.1 verwendet. 


Aufgrund von Vorstudien und Erfahrungswerten ist anzunehmen, dass die 
durchschnittliche (übergangsspezifische) Hazardrate für den Studienabschluss 
ab dem neunten Semester einige Semester steigt und dann leicht zu fallen be- 
ginnt. Diese Form der Hazardrate kann etwa mit einem log-logistischen- oder 
einem Gamma-Modell erreicht werden. 


Diese Annahme kann über einen Vergleich der logarithmierten Werte der Like- 
lihoodfunktion für alternative Verteilungsannahmen überprüft werden; Tabelle 
12.1 zeigt die Log-Likelihood- und A/IC-Werte ohne Einbeziehung von Kova- 
riablen. 


Tabelle 12.1: Log-Likelihood- und AIC-Werte für verschiedene Verteilungsan- 
nahmen für die Reststudiendauer 


Modell Log-Likelihood | AIC-Wert 


Exponential -1407.68 2817.36 
Weibull -1328.25 2660.50 
Log-normal -1333.36 2670.72 
Gamma -1318.75 2643.50 


LLogistic -1312.07 2628.14 


Das Exponential-, Weibull- und log-normale Modell sind Spezialfälle des verall- 
gemeinerten Gamma-Modells. Alle Tests (mit Hilfe der Likelihood-Quotienten- 
Statistik), dass die Nullhypothesen der entsprechenden Restriktionen zutreffen, 
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führen mit p-Werten < 0.002 zur Ablehnung. Unter den geschachtelten Mo- 
dellen ist somit das Gamma-Modell das beste. Für das log-logistische Modell 
kann kein formaler Vergleich mit den anderen Modellen durchgeführt wer- 
den, allerdings liefert das log logistische Modell den kleinsten AIC-Wert. Das 
AIC-Kriterium einerseits und die einfachere Gestalt (und Interpretierbarkeit) 
sowie geringere Rechenintensität des log-logistischen Modells gegenüber dem 
Gamma-Modell andererseits führen zu dem Schluss, dass das log-logistische 
das geeignetste Modell zur Beschreibung der Daten ist. 


Abbildung 12.1 zeigt die in Abschnitt 5.3 beschriebene graphische Überprüfung 
für die log-logistische Verteilungsannahme. Der Plot von In{[1- $; (tı)]/[Sı(tı)]} 
gegen In(t,) ist annähernd linear, wobei $,(tı) der Kaplan-Meier-Schätzer der 
in Abschnitt 7.1 definierten übergangsspezifischen Überlebensfunktion und tı 
die (über der Mindeststudiendauer liegende) Reststudiendauer an der WU ist. 
Ergänzend wurde für die Beziehung zwischen In{[1—$,(t,)]/[$1(t:)]} und In(tı) 
auch ein lineares Regressionsmodell geschätzt (R? = 0.99) und die Regressi- 
onsgerade in die Graphik eingetragen. 


Inf1—syS] 
2 


—2 
—4 
—6 


—8 


In(t) 


Abbildung 12.1: Graphische Uberpriifung der log-logistischen Verteilungsan- 
nahme fiir die Reststudiendauer tı 
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Das Weibull-Modell zeigt bei diesem graphischen Verfahren eine ähnlich gute 

Anpassung wie das log-logistische Modell, das log-normale und das Exponential- 
Modell eine etwas schlechtere Anpassung an die Daten. Die Modellüberprüfun- 

gen sind Hinweis dafür, dass die getroffene Annahme einer log-logistischen Ver- 

teilung der Reststudiendauer (ohne Einbeziehung von erklärenden Variablen) 

passend ist. 


Die ML-Schätzung führt zu folgenden Parameter-Schätzern im log-logistischen 
Modell: A = exp|—{o] = exp[-3.82] = 0.02; 5 = 0.51. Die geschätzte (übergangs 
spezifische) Hazardrate für den Studienabschluss lässt sich somit wie folgt an- 


schreiben: 
_ 0,02 «1, 96(0, 022,96 


ole 1 + (0, 02¢,)1:96 


Die Reststudiendauer von Studienabbrechern (nach dem achten Semester) und 
von (zum Stichtag noch) Studierenden geht als rechts-zensierte Zeit in die 
ML-Schätzung ein. Abbildung 12.2 zeigt die geschätzte Hazardrate für den 
Studienabschluss bei Annahme eines log-logistischen Modells. Bei der Graphik 
ist zu beachten, dass der Ursprung der Beginn des neunten Semesters ist, 
da für die ersten acht Semester die übergangsspezifische Hazardrate mit Null 
angenommen wird. 


An der Abbildung ist zu erkennen, dass die Hazardrate etwa bis zum sech- 
zehnten Semester steigt und dann zu fallen beginnt. Es sei noch erwähnt, dass 
die Gestalt der Hazardfunktion bei Annahme eines verallgemeinerten Gamma- 
Modells bis zum sechzehnten Semester ähnlich steigt, jedoch danach weniger 
steil fällt als beim log-logistischen Modell. 


Analyse der Reststudienzeit auf Basis der Stammdaten 
aus der Hörerevidenz - Basis-Modell 


Im darauffolgenden Schritt der Modellentwicklung wurde die Reststudiendauer 
als Funktion der folgenden (im Abschnitt 10.1 definierten und im Kapitel 11 
für den Jahrgang 1990 deskriptiv analysierten) zeitkonstanten Variablen aus 
der Hörerevidenz spezifiziert: 


e Geschlecht (“sex”) mit den weiblichen Studierenden als Referenzkategorie 


e Alter bei der Matura (in Jahren; “matalt”); das Alter bei der Matura wird 
als Hilfsvariable verstanden, die annähernd angibt, ob die Schule ohne Zeit- 
verzögerung abgeschlossen worden ist. Über diese Variable kann etwa die 
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t+48, in Monaten 


20 40 60 80 100 120 140 


Abbildung 12.2: Geschätzte Hazardrate für den Studienabschluss bei log- 
logistischer Verteilungsannahme (ohne Einbeziehung von Kovariablen) 


Hypothese überprüft werden, dass ein verzögerter Schulabschluss auch auf 
eine längere Studiendauer hinweist. 


e Zeit zwischen Matura und Studienbeginn (in Monaten; “lag” ) 


e Schultyp (AHS als Referenzkategorie); über diese Variable kann überprüft 
werden, ob der Abschluss eines bestimmten Schultyps Vor- bzw. Nachteile 
an der Wirtschaftsuniversität bringt. 


e Zeitpunkt der Immatrikulation als kategorielle Variable mit den Ausprägun- 
gen “wochel” für Studierende, die in der ersten Woche der Immatrikulati- 
onszeit immatrikuliert haben (Referenzkategorie; 64% der einbezogenen Im- 
matrikulierten des Jahrgangs 1990); “woche2” (19%), “woche3” (8%), “wo- 
che4” (4%) und “woche5” (5%) für Studierende, die in der zweiten, dritten, 
vierten, fünften Woche oder später immatrikuliert haben. Die Variable wur- 
de in das Modell aufgenommen, um die Hypothese zu überprüfen, dass sich 
spätere Immatrikulationen negativ auf die Studiendauer auswirken. Das 
Immatrikulationsdatum kann als Hilfsvariable für die Zielstrebigkeit oder 
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Entschlossenheit zu Studienbeginn gesehen werden. Studierende, die spät 
immatrikulieren, sind sich oft nicht sicher, ob bzw. welche Studienrichtung 
sie studieren sollen, und entscheiden sich spät. 


Die Studienrichtungen, die — wie erwähnt - an der Wirtschaftsuniversität sehr 
ähnliche Studienpläne haben, wurden nicht in das Modell einbezogen, da die 
Analyse der Dauer an der Wirtschaftsuniversität (und nicht die einer Studien- 
richtung) im Vordergrund steht. 


Für die folgenden Analysen der Reststudienzeit tı in Abhängigkeit der oben 
angeführten Variablen wird in Anlehnung an die Vorstudie in einem ersten 
Schritt das log-logistische Modell 


_ A) A)! 
h(t |x) = TEACH) 


herangezogen. 


Das Ausgangsmodell beinhaltet mit dem Alter bei der Matura (“matalt”) und 
dem Zeitabstand zwischen Matura und Studienbeginn (“lag”) zwei kontinuier- 
lich skalierte Variablen. Es gilt zu überprüfen, ob die Modellierung der beiden 
Merkmale als kontinuierliche Variablen korrekt ist. Zur Überprüfung, ob ei- 
ne kontinuierliche Variable linear auf die abhängige Variable wirkt, können 
Martingal-Residuen verwendet werden; siehe Abschnitt 6.5. Abbildung 12.3 
zeigt die gegen die Variable “lag” aufgetragenen, (mit der LOWESS-Methode) 
geglätteten Martingal-Residuen, die auf Basis eines (übergangsspezifischen) 
log-logistischen Regressionsmodells unter Einbeziehung aller Kovariablen bis 
auf “lag” und “matalt” ermittelt worden sind. 


Die Abbildung zeigt, dass für Werte kleiner als 18 Monate die Annahme einer 
linearen funktionalen Form für die Variable “lag” nicht geeignet ist, da die 
geglätteten Martingal-Residuen nicht die Gestalt einer Geraden haben. Die 
funktionelle Form der geglätteten Residuen lässt den Schluss zu, dass dieses 
Merkmal besser als kategorielle Variable zu modellieren ist. Eine natürliche 
Trennung ergibt sich, indem man in den ersten 18 Monaten zwischen Studie- 
renden unterscheidet, die (dem “Normalfall” entsprechend) im Mai oder Juni 
des Immatrikulationsjahres oder des Vorjahres maturiert und jenen, die an 
einem anderen (“aussernatürlichen”) Termin die Schule abgeschlossen haben, 
und eine weitere Gruppe für die wenigen Studierenden bildet, die mehr als 18 
Monate zwischen Matura und Studienbeginn verstreichen haben lassen. Die 
Variable “lag” wird dann in folgende fünf Kategorien unterschieden: 


e “lagO” als Referenzkategorie für diejenigen Studierenden, die im Mai oder 
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M-Residuen 


Abbildung 12.3: Plot der (geglätteten) Martingal-Residuen gegen die Variable 


“lag” (in Monaten; log-logistisches Modell) 


Juni des Immatrikulationsjahres maturiert haben; das sind 72% der in das 
Modell einbezogenen Immatrikulierten des Wintersemesters 1990/91 


“lag1” für Studierende, die im September oder Oktober des Immatrikulati- 
onsjahres maturiert haben (5%) 


“lag2” fiir Studierende, die vor dem Mai im Immatrikulationsjahr maturiert 
haben (2%) 


“lag3” für Studierende, die im Mai oder Juni des Jahres vor dem Immatri- 
kulationsjahr maturiert haben (16%); in diese Kategorie fallen etwa auch 
(männliche) Studierende, die zwischen Schulabschluss und Studienbeginn 
das Bundesheer absolviert haben 


“lag4” für Studierende, die mehr als 18 Monate zwischen Matura und Stu- 
dienbeginn verstreichen haben lassen (5%); in diese Kategorie fallen Stu- 
dierende, die sich nach der Schule nicht sofort für ein Studium entschieden 
haben 
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Die in der Abbildung 12.3 gezeigte funktionale Form der Variablen “lag” konnte 
in ergänzenden Modellüberprüfungen auch für die Immatrikulationsjahrgänge 
1991 bis 1993 als typisch nachgewiesen werden. 


Für die Variable “matalt” wurde ebenfalls mit Hilfe der Martingal-Residuen 
die funktionale Form überprüft; siehe Abbildung 12.4. 


M-Residuen 


matalt 


Abbildung 12.4: Plot der (geglätteten) Martingal-Residuen gegen die Variable 
“matalt” (log-logistisches Modell) 


An dieser Abbildung ist zu erkennen, dass die Variable Alter nicht linear auf 
Int, einwirkt und eine Modellierung mit Hilfe einer binären Variablen geeig- 
neter scheint. Der Abbildung entsprechend wird das Alter für die folgenden 
Analysen in die beiden Altersgruppen (0; 20), [20, 00) unterteilt (“matalt1”, 
wobei die Altersgruppe (0;20) die Referenzkategorie bildet; 90% der einbezo- 
genen Studierenden fallen in diese Kategorie). Eine ähnliche funktionale Form 
wurde auch für die Immatrikulationsjahrgänge 1991 bis 1993 gefunden. 


Tabelle 12.2 zeigt (neben einigen Informationen zum Modell wie beispielswei- 
se der Anzahl der in das Modell einbezogenen Studierenden) die geschätzten 
Parameter bei Implementierung eines log-logistischen Modells zur Analyse der 
Reststudiendauer unter Einbeziehung der eingangs definierten Variablen, wo- 
bei die beiden kontinuierlichen Variablen “matalt” und “lag” als kategorielle 
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Merkmale implementiert worden sind. Als Referenzgruppe gelten damit weib- 
liche Studierende mit AHS-Matura, die im Mai oder Juni des Immatrikulati- 
onsjahres maturiert haben und bei der Matura jünger als 20 Jahre alt waren. 


Tabelle 12.2: Parameterschätzer des log-logistischen Modells für die Reststu- 
diendauer auf Basis der Stammdaten (Jahrgang 1990) 


Model Information 


Number of Observations 1262 
Noncensored Values 746 
Right Censored Values 516 
Name of Distribution LLogistic 
Log Likelihood -1272.63063 


Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 
Parameter DF Estimate Error Limits Square Pr > ChiSq 
Intercept 1 3.7669 0.0492 3.6705 3.8633 5870.08 <.0001 
matalti 1 0.2623 0.1136 0.0395 0.4850 5.33 0.0210** 
lagi 1 0.4692 0.2115 0.0547 0.8837 4.92 0.0265** 
lag2 1 -0.0001 0.2222 -0.4356 0.4353 0.00 0.9995 
lag3 1 -0.1208 0.0730 -0.2639 0.0224 2.74 0.0982* 
lag4 1 -0.1882 0.1270 -0.4371 0.0607 2.20 0.1383 
sex 1 0.0826 0.0578 -0.0307 0.1959 2.04 0.1532 
hak 1 -0.1769 0.0613 -0.2970 -0.0569 8.34 0.0039*** 
htl 1 -0.0845 0.0874 -0.2559 0.0868 0.94 0.3335 
hla 1 0.0343 0.1509 -0.2615 0.3300 0.05 0.8203 
other 1 -0.2489 0.1906 -0.6226 0.1247 1.71 0.1916 
woche2 1 0.1145 0.0691 -0.0208 0.2498 2.75 0.0973* 
woche3 1 0.1979 0.1015 -0.0011 0.3968 3.80 0.0512* 
woche4 1 0.2025 0.1976 -0.1848 0.5897 1.05 0.3055 
woche5 1 0.7522 0.1951 0.3699 1.1345 14.87 0.0001*** 
Scale 1 0.4938 0.0151 0.4650 0.5243 


*p<0.1; **p<0.05; ***p<0.01 


Zur Überprüfung, ob das in Tabelle 12.2 implementierte log-logistische Mo- 
dell eine gute Anpassung an die Daten liefert, wurde einerseits ein graphischer 
Test mit Hilfe der Cox-Snell-Residuen (siehe Abschnitt 5.3) durchgeführt, und 
andererseits der logarithmierte Wert der Likelihood-Funktion über das AIC- 
Kriterium mit den entsprechenden Werten anderer Verteilungsannahmen ver- 
glichen. Abbildung 12.5 zeigt für das log-logistische Modell eine gute Anpas- 
sung an eine Gerade, während für andere Modelle wie das Exponential-Modell 
eine deutliche Abweichung zu erkennen ist; siehe Abbildung 12.6. Der AIC- 
Wert des log-logistischen Modells ist unter den betrachteten log-linearen Mo- 
dellen am geringsten. Der Test (mit Hilfe der Likelihood-Quotienten-Statistik), 
dass keine der einbezogenen Variablen einen Erklärungsbeitrag liefert, führt 
mit einem p-Wert < 0.0001 zur Ablehnung. 
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In einem nächsten Schritt wurden Wechseleffekte unter den Variablen - insbe- 
sondere mit dem Geschlecht — überprüft. 


2.5 


2.0 


15 


10 


Geschaetzte kumulative Hazardrate 


0.5 


0.0 
0.0 0.5 10 15 2.0 2.5 
Cox Snell Residuen 


Abbildung 12.5: Plot der Cox-Snell Residuen bei Implementierung eines log- 
logistischen Modells für den Studienabschluss 


In Tabelle 12.2 zeigt das Geschlecht — bei gleicher Ausprägung aller anderen 
einbezogenen Variablen — keinen Einfluss auf die Studiendauer (p = 0.15). 
Häufig ist jedoch zu beobachten, dass die Effekte der einbezogenen Kovaria- 
blen zwischen den Geschlechtern differieren. Daher können entweder Model- 
le für Studentinnen und Studenten getrennt geschätzt (vgl. Booth und Sat- 
chell (1995) oder Smith und Naylor (2001)) oder in das gemeinsame Modell 
ergänzend Interaktionsterme zwischen dem Geschlecht und den einbezogenen 
Variablen aufgenommen werden. 


Bei der Implementierung solcher Interaktionsvariablen zeigen die Wechselwir- 
kungen des Geschlechts mit dem Schultyp AHS und mit der zweiten Imma- 
trikulationswoche einen Effekt auf die Studiendauer (p-Werte kleiner als 0.1). 
Durch das Einbeziehen dieser Variablen ändern sich die Parameterschätzer der 
Haupteffekte, also der Schultypen, der zweiten Immatrikulationswoche und des 
Geschlechts; die Regressionskoeffizienten der anderen Variablen bleiben prak- 
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Abbildung 12.6: Plot der Cox-Snell Residuen bei Implementierung eines 
Exponential-Modells fiir den Studienabschluss 


tisch unverändert. Weitere bedeutende Wechselwirkungen konnten nicht be- 
obachtet werden. Tabelle 12.3 zeigt die Parameterschätzer des Modells nach 
Einbeziehung der beiden Interaktionsvariablen mit dem Geschlecht. Es sei 
erwähnt, dass die separate Schätzung des Modells je Geschlecht ähnliche Er- 
gebnisse liefert. 


In einem letzten Schritt der Modellentwicklung kann noch die Anzahl der Va- 
riablen durch eine schrittweise Auswahl bzw. durch Zusammenfassen von Va- 
riablen, bei denen ein Test auf Gleichheit der Regressionskoeffizienten nicht 
abgelehnt worden ist, verringert werden; “woche34” fasst die Variablen “wo- 
che3” und “woche4” zusammen und “lag34” die Variablen “lag3” und “lag4”. 
Das daraus resultierende Modell (siehe Tabelle 12.4) hat keinen geringeren Er- 
klärungsgrad als das Modell, das alle einbezogenen Variablen berücksichtigt 
(p = 0.85); die entsprechende Likelihood-Quotienten-Statistik ist x?(7) ver- 
teilt. 
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Tabelle 12.3: Parameterschätzer unter Berücksichtigung von Interaktionvaria- 
blen mit dem Geschlecht (Jahrgang 1990; log-logistisches Modell) 


Log Likelihood -1268.410831 
Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 


Parameter DF Estimate Error Limits Square Pr > ChiSq 
Intercept 1 3.6910 0.0556 3.5820 3.8001 4399.88 <.0001 
matalti 1 0.2730 0.1137 0.0502 0.4958 5.77 0.0163** 
lagi 1 0.4535 0.2101 0.0416 0.8653 4.66 0.0309*%* 
lag2 1 0.0210 0.2204 -0.4110 0.4530 0.01 0.9240 
lag3 1 -0.1122 0.0729 -0.2552 0.0307 2.37 0.1239 
lag4 1 -0.1757 0.1274 -0.4254 0.0739 1.90 0.1678 
sex 1 -0.0143 0.0912 -0.1930 0.1644 0.02 0.8754 
sex*ahs 1 0.2452 0.1124 0.0250 0.4655 4.76 0.0291** 
hak 1 -0.0640 0.0803 -0.2214 0.0933 0.64 0.4251 
htl 1 0.0739 0.1186 -0.1586 0.3063 0.39 0.5334 
hla 1 0.0892 0.1520 -0.2086 0.3871 0.34 0.5570 
other 1 -0.1043 0.2014 -0.4991 0.2904 0.27 0.6044 
sex*woche2 1 -0.2623 0.1403 -0.5372 0.0126 3.50 0.0614* 
woche2 1 0.2722 0.1109 0.0547 0.4896 6.02 0.0142 
woche3 1 0.1970 0.1010 -0.0009 0.3949 3.81 0.0511* 
woche4 1 0.2147 0.1962 -0.1699 0.5994 1.20 0.2739 
woche5S 1 0.7448 0.1937 0.3653 1.1244 14.79 0.0001*** 
Scale 4 0.4920 0.0151 0.4633 0.5224 


*p<0.1; **p<0.05; ***p<0.01 


Interpretation und Diskussion der Ergebnisse des Basis- 
Modells (Jahrgang 1990) 


Die Parameterschatzer des finalen Basis-Modells fiir den Jahrgang 1990 (siehe 
Tabelle 12.4), das die Reststudiendauer in Abhängigkeit der zu Studienbeginn 
in der Hörerevidenz gespeicherten Stammdaten analysiert, können wie folgt 
interpretiert werden: 


e “matalt1”: Studienanfänger, die bei der Matura älter als 20 Jahre sind, 
erwarten eine um etwa 32% (= exp(0.28) — 1) höhere (mediane) Reststu- 
diendauer (= Studienzeit über der Mindeststudiendauer) als Studierende 
der Referenzkategorie (bei der Matura jünger als 20 Jahre und sonst gleiche 
Ausprägungen der anderen Variablen); p = 0.013. 


Das Alter bei der Matura kann - wie erwähnt - als eine Variable interpretiert 
werden, die die Studierenden darin unterscheidet, ob sie die Schule ohne 
Zeitverzögerung absolviert haben oder nicht. Studierende, die die Schule 
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Tabelle 12.4: Parameterschätzer des finalen log-logistischen Modells für die 
Reststudiendauer auf Basis der Stammdaten (Jahrgang 1990) 


Log Likelihood -1270.137408 


Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 
Parameter DF Estimate Error Limits Square Pr > ChiSq 
Intercept 1 3.6761 0.0432 3.5914 3.7609 7228.17 <.0001 
matalti 1 0.2795 0.1122 0.0596 0.4995 6.21 0.0127%*x* 
lagi 1 0.4637 0.1688 0.1328 0.7946 7.54 0.0060x*** 
lag34 1 -0.1270 0.06658 -0.2559 0.0019 3.73 0.0534* 
sex 1 -0.0029 0.0712 -0.1424 0.1366 0.00 0.9677 
sex*ahs 1 0.2566 0.0741 0.1113 0.4019 11.98 0.0005*** 
sex*woche2 1 -0.2733 0.1398 -0.5473 0.0006 3.82 0.0505%*x* 
woche2 1 0.2693 0.1112 0.0514 0.4872 5.87 0.0154«« 
woche34 1 0.1965 0.0918 0.0167 0.3764 4.59 0.0322** 
woche5 1 0.7235 0.1850 0.3609 1.0862 15.29 <.0001*#* 
Scale 1 0.4930 0.0151 0.4643 0.5235 


*p<0.1; **p<0.05; ***p<0.01 


ohne (oder nur mit geringem) Zeitverlust absolvieren, haben somit eine 
geringere zu erwartende Studiendauer. 


e “lagl, lag34”: Immatrikulierte, die zum ersten Matura-Nachtermin im Sep- 
tember bzw. Oktober angetreten sind (“lag1”), erwarten eine um etwa 58% 
(= erp(0.46) — 1) höhere Reststudiendauer als die Referenzkategorie (un- 
ter gleicher Ausprägung aller anderen Variablen); entsprechend ist auch die 
zusammengefasste Kategorie “lag34” zu interpretieren. 


90% der Studierenden der Kategorie “lagl” immatrikulierten (aufgrund ih- 
res Matura-Termins) erst in der vierten oder fünften Woche der Inskriptions- 
zeit und haben damit — wie bei der Interpretation der Variablen “woche2” 
bis “woche5” erläutert wird — einen ersten Startnachteil. Die Variable “lag1” 
korreliert somit mit den Ausprägungen “woche4” und “woche5” hoch. Lässt 
man etwa die Variable “lagl” in Tabelle 12.3 weg, so verringert sich der p- 
Wert der Variablen “woche4” bei einem Koeffizienten von 0.51 auf 0.0005 
und der Regressionskoeffizient von “woche” steigt von 0.75 auf 0.88. 


e “woche2, woche34, woched”: Eine spätere Immatrikulation lässt eine längere 
Studiendauer erwarten. Für Studienanfänger, die in der fünften Immatri- 
kualtionswoche oder später immatrikuliert haben, liegt die erwartete Rest- 
studiendauer 105% (= exp(0.72) — 1) über der Reststudiendauer von Stu- 
dierenden, die in der ersten Woche immatrikuliert haben. 
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Eine Erklärung für die positiven Regressionskoeffizienten der Immatriku- 
lationswochen, die — wie erwähnt — bei Weglassen der Variablen “lag1” 
alle einen p-Wert kleiner als 0.1 haben, kann in dem aus einer späteren 
Immatrikulation entstehenden Startnachteil vermutet werden. Umso später 
Studierende immatrikulieren, desto weniger Zeit bleibt etwa, sich 


— beraten und eine “Stundenplan” für das erste Semester erstellen zu 
lassen, 


— auf der Universität zurecht zu finden und 


— für Lehrveranstaltungen anzumelden; in manchen Lehrveranstaltungen 
gibt es überhaupt keine freien Plätze mehr. 


An dem Projekt “Studieren in Teams”, das die Eingangsphase auf der Wirt- 
schaftsuniversität erleichtern soll, können etwa auch nur Studierende, die in 
den ersten drei Immatrikulationswochen immatrikuliert haben, teilnehmen. 
Es ist zu vermuten, dass sich eine späte Immatrikulation negativ auf die 
Leistungen im ersten Studienjahr auswirkt und dadurch eine längere Stu- 
diendauer zur Folge hat. Deskriptive Analysen bestätigen, dass der Imma- 
trikultionszeitpunkt mit den Leistungen im ersten Studienjahr hoch korre- 
liert - die Anzahl der (positiven) Leistungen im ersten Studienjahr nimmt 
mit der Immatrikulationswoche linear ab. Im nächsten Unterabschnitt wird 
dann gezeigt, dass die Leistungen im ersten Studienjahr einen hohen Er- 
klärungsbeitrag für die Gesamtstudiendauer liefern. 


“sex*ahs”: Die Interaktionsvariable gibt an, dass (männliche) AHS-Maturan- 
ten eine um 30% (= exp(0.257 — 0.003) — 1) längere geschätzte Reststudi- 
endauer als AHS-Maturantinnen aufweisen. Der Schultyp AHS wirkt sich 
somit je nach Geschlecht unterschiedlich auf die Studiendauer aus. 


Die Ausprägung “hak”, die vor der Einbeziehung der Interaktionsvariablen 
“sex*ahs” mit einem p-Wert kleiner als 0.01 eine verringernde Wirkung auf 
die Studiendauer gezeigt hat (siehe Tabelle 12.2), weist danach mit einem p- 
Wert von 0.43 keinen Einfluss mehr auf die Studiendauer auf (siehe Tabelle 
12.3). Sowohl HAK- als auch HTL-, HLA- und sonstige Absolventen unter- 
scheiden sich nicht mehr von der Referenzkategorie, den weiblichen AHS- 
Absolventen (p-Werte größer als 0.4). Männliche AHS-Absolventen hinge- 
gen brauchen (bei gleicher Ausprägung der anderen Variablen) länger als 
AHS-Absolventinnen und Absolventen der anderen Schultypen. 


“sex*woche2”: Die Interaktionsvariable zeigt, dass der (die Studiendau- 
er verlängernde) Einfluss einer Immatrikulation in der zweiten Woche für 
(männliche) Studenten schwächer ausgeprägt ist als für Studentinnen. 
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Zusammenfassend kann geschlossen werden, dass (die Stammdaten aus der 
Hörerevidenz betreffend) ein zügiger Schul-Abschluss und frühes Immatriku- 
lieren einen positiven Effekt auf die Studiendauer haben und männliche AHS- 
Absolventen eher länger für das Studium brauchen. 


Ergebnisse für die Analyse der Reststudiendauer von Im- 
matrikulationsjahrgängen 1989 bis 1993 


Die in den vorherigen Unterabschnitten durchgeführten Schritte der Modell- 
entwicklung und Analyse für den Jahrgang 1990 wurden auch ergänzend für 
die Immatrikulationsjahrgänge der Wintersemester 1989 bis 1993 gemeinsam 
durchgeführt. Ziel dieser Analysen ist die Beantwortung der Frage, ob die für 
den Jahrgang 1990 erzielten Ergebnisse auch für andere Jahrgänge gültig sind. 
Tabelle 12.5 zeigt — ohne Rücksichtnahme auf eventuelle Jahrgangsspezifika - 
die Ergebnisse für das Modell bei Annahme einer log-logistischen Verteilung. 


Beim Vergleich der Tabellen 12.5 und 12.3 zeigt sich, dass fast alle Parame- 
terschätzer im Vorzeichen und auch in der Größenordnung annähernd gleich 
sind - insbesondere die Variablen mit einem bedeutenden Einfluss. Die Pa- 
rameterschätzer aus Tabelle 12.5 fallen alle mit Ausnahme von “woche5” in 
das 95%-Konfidenzintervall der Parameterschätzer aus Tabelle 12.3. Der Ef- 
fekt der Kategorie “woched” zeigt sich etwas abgeschwächt. Weiters ist zu 
erwähnen, dass der Koeffizient der Variablen Geschlecht bei Betrachtung meh- 
rerer Jahrgänge positiv (mit p < 0.01) ist und somit mit einer längeren Studien- 
dauer für männliche Immatrikulierte zu interpretieren ist. Die Interpretation 
der restlichen Variablen ist wie für den Jahrgang 1990 zu führen. In einem 
weiteren Schritt ist es wieder möglich, (Kategorien von) Variablen zusammen- 
zufassen bzw. wegzulassen. 


Über binäre Variablen für jeden Jahrgang (“jhg89” bis “jhg93”, mit dem Jahr- 
gang 1990 als Referenzkategorie) kann ergänzend der Frage nachgegangen wer- 
den, obsich die einzelnen Jahrgänge in der Studiendauer unterscheiden. Tabelle 
12.6 zeigt die Regressionskoeffizienten dieser Dummy-Variablen bei Erweite- 
rung des Modells aus Tabelle 12.5. Die Parameterschätzer der ursprünglich 
einbezogenen Variablen bleiben praktisch unverändert und sind daher nicht 
aufgelistet. 


Der Likelihood-Quotiententest der Nullhypothese, dass die vier neu einbezoge- 
nen Variablen keinen Erklärungsbeitag liefern, führt mit p = 0.042 zur Ableh- 
nung. Betrachtet man in Tabelle 12.6 die vier Jahrgangs-Variablen einzeln, so 
zeigt sich, dass sich bei gleicher Ausprägung aller anderen Variablen lediglich 
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Tabelle 12.5: Parameterschätzer des log-logistischen Modells der Reststudien- 
dauer für die Jahrgänge 1989 bis 1993 auf Basis der Stammdaten 


Model Information 


Number of Observations 5694 
Noncensored Values 3103 
Right Censored Values 2591 
Name of Distribution LLogistic 
Log Likelihood -5531.961201 


Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 


Parameter DF Estimate Error Limits Square Pr > ChiSq 
Intercept 1 3.6392 0.0274 3.5855 3.6929 17641.8 <.0001 
matalti 1 0.2916 0.0484 0.1967 0.3865 36.26 <.0001*** 
lagi 1 0.3308 0.0941 0.1465 0.5151 12.37 0.0004**x« 
lag2 1 0.2208 0.0963 0.0322 0.4095 5.26 0.0218** 
lag3 1 -0.1103 0.0351 -0.1790 -0.0416 9.90 0.0017*#* 
lag4 1 -0.0993 0.0559 -0.2089 0.0103 3.15 0.0759* 
sex 1 0.1461 0.0406 0.0666 0.2256 12.97 0.0003*** 
sex*ahs 1 0.0925 0.0518 -0.0090 0.1940 3.19 0.0739* 
hak 1 -0.0971 0.0379 -0.1714 -0.0229 6.57 0.0104*« 
htl 1 0.0438 0.0526 -0.0593 0.1469 0.69 0.4048 
hla 1 0.0392 0.0663 -0.0908 0.1692 0.35 0.5544 
other 1 0.0503 0.0885 -0.1232 0.2238 0.32 0.5698 
sex*woche2 1 -0.1526 0.0620 -0.2742 -0.0310 6.05 0.0139** 
woche2 1 0.2528 0.0467 0.1611 0.3444 29.23 <.0001*** 
woche3 1 0.2021 0.0497 0.1047 0.2995 16.54 <.0001*** 
woche4 1 0.2537 0.0868 0.0836 0.4238 8.54 0.0035*** 
woche5 1 0.3372 0.0883 0.1642 0.5102 14.59 0.0001*** 
Scale 1 0.4887 0.0074 0.4745 0.5034 


*p<0.1; **p<0.05; ***p<0.01 


der Jahrgang 1993 in der Studiendauer vom Jahrgang 1990 geringfiigig unter- 
scheidet. Die erwartete Reststudiendauer wird fiir den Jahrgang 1993 um 9% 
geringer als für den Jahrgang 1990 geschätzt. Uber Interaktionsvariablen bzw. 
eine getrennte Analyse der Jahrgänge kann zusätzlich untersucht werden, ob 
der Einfluss der einbezogenen Variablen aus der Hörerevidenz zwischen den 
Jahrgängen variiert. Es konnte nichts Auffälliges beobachtet werden. 


Modelle der Reststudienzeit auf Basis der Stamm- und 
Prüfungsdaten 


Prüfungsdaten — etwa Ablegungszeitpunkte, Noten oder wiederholte Antritte 
— widerspiegeln den Studienfortschritt und sind daher hoch prädiktiv für die 
Studiendauer (und die Abbruchrate). Um die Hypothese zu überprüfen, dass 
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Tabelle 12.6: Parameterschätzer der binären Jahrgangs-Variablen (Jahrgänge 
1989 bis 1993) 


Log Likelihood -5527.020509 
Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 


Parameter DF Estimate Error Limits Square Pr > ChiSq 
jhg89 1 -0.0136 0.0368 -0.0857 0.0585 0.14 0.7109 
jhg91 1 0.0300 0.0375 -0.0435 0.1034 0.64 0.4239 
jhg92 1 -0.0343 0.0382 -0.1093 0.0406 0.81 0.3691 
jhg93 1 -0.0943 0.0406 -0.1738 -0.0148 5.41 0.0201** 


*p<0.1; *#p<0.05; ***p<0.01 


das Leistungsprofil des ersten Studienjahrs einen hohen prädiktiven Charakter 
für die Studiendauer an der Wirtschaftsuniversität hat, wurden in einem wei- 
teren Schritt Prüfungsdaten aus dem ersten Studienjahr in das log-logistische 
Regressionsmodell integriert: 


e Anzahl der positiven Lehrveranstaltungsprüfungen (“gesposj1”) exklusive 
Ergänzungsprüfungen; diese Prüfungen wurden hier nicht berücksichtigt, 
da sie Voraussetzung aber nicht Bestandteil der Studienpläne sind. Der 
Mittelwert der Variablen “gesposj1” liegt für die in das Modell einbezogenen 
Immatrikulierten bei etwa acht positiven Prüfungen. 


e Ablegen mindestens einer positiven Vor- bzw. Teildiplomprüfung als binäre 
Variable (“vpj1”); 9% der einbezogenen Studierenden haben mindestens 
eine Vor- bzw. Teildiplomprüfung im ersten Studienjahr abgelegt. 


e Notendurchschnitt aller im ersten Studienjahr abgelegten Lehrveranstal- 
tungsprüfungen (“average”) exklusive Ergänzungsprüfungen; der Mittelwert 
der Variablen liegt bei 3.5. 


Mit der Einbeziehung von Prüfungsdaten soll untersucht werden, inwieweit 
unter der Berücksichtigung der in der Hörerevidenz vorhandenen Informati- 
on nach dem ersten Studienjahr Individualprognosen über die Studiendauer 
(und die Studienabbruch-Wahrscheinlichkeit) möglich sind. Diese Fragestel- 
lung gewinnt im Lichte der an der Wirtschaftsuniversität im Wintersemester 
2002/2003 eingeführten Studieneingangsphase von einem Studienjahr umso 
mehr an Bedeutung. 
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Als Datenbasis für die Modelle dieses Unterabschnitts wurden jene inländischen 
Immatrikulierten der Wintersemester 1989/90 bis 1993/94 herangezogen, die 
mindestens acht Semester an der Wirtschaftsuniversität studiert und minde- 
stens eine Lehrveranstaltungsprüfung im ersten Studienjahr abgelegt haben. 
Durch die zweite Einschränkung, die sich in der Aufnahme der Variablen No- 
tendurchschnitt begründet, geht die Information von weiteren 2% der bis zum 
Stichtag erfolgten Studienabschlüsse verloren. Eine alternative Modellierung, 
die auch die Studierenden berücksichtigt, die keine Lehrveranstaltungsprüfung 
im ersten Studienjahr abgelegt haben, und die Variable Notendurchschnitt 
nicht in das Modell einbezieht, führt zu keinen offensichtlichen Abweichungen 
gegenüber der gleichen Modellierung mit eingeschränkter Population. 


Die Anzahl der positiven Lehrveranstaltungsprüfungen und der Notendurch- 
schnitt sind kontinuierlich skalierte Variablen. Die Überprüfung, ob die Mo- 
dellierung als kontinuierliche Variablen passend ist, erfolgte mittels Martingal- 
Residuen. 


8 
O 
8 
8 
è 


M-Residuen 


gesposj1 


Abbildung 12.7: Plot der (geglätteten) Martingal-Residuen gegen die Variable 
“gesposj1” (log-logistisches Modell) 


Beide Abbildungen 12.7 und 12.8 lassen erkennen, dass die Einbeziehung als 
kontinuierliche Variablen in Ordnung ist. Dabei muss allerdings erwähnt wer- 
den, dass die abgebildeten Martingal-Residuen auf Basis eines (übergangsspe- 
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M-Residuen 


average 


Abbildung 12.8: Plot der (geglätteten) Martingal-Residuen gegen die Variable 
“average” (log-logistisches Modell) 


zifischen) log-logistischen Regressionsmodells unter Einbeziehung der Stamm- 
daten und “vpj1” ermittelt worden sind. Bezieht man zusätzlich die jeweils 
andere Prüfungsvariable in das Modell ein, so ist etwa die lineare Form der 
Variablen “average” ab dem Notendurchschnitt Vier etwas gebrochen. Das be- 
deutet, dass unter Einbeziehung von “gesposj1” ab einem Notendurchschnitt 
von Vier keine wesentlichen Unterschiede in der Studiendauer zu erwarten sind. 


Die folgenden Interpretationen beziehen sich auf eine Referenzgruppe von weib- 
lichen Studierenden mit AHS-Matura, die im Mai oder Juni des Immatrikula- 
tionsjahres maturiert haben und bei der Matura jünger als 20 Jahre alt waren; 
sie haben im ersten Studienjahr acht Lehrveranstaltungen positiv absolviert 
(“gesposj1”=8), dabei eine durchschnittliche Benotung von Drei erreicht (“ave- 
rage”=3) und keine Vor- bzw. Teildiplomprüfung absolviert (“vpj1”=0). 


Die mediane Reststudiendauer der Referenzkategorie kann (unter der Annahme 
eines bedingt unabhängigen Zensierungsmechanismus) über 


Sıltıla) = exp (- f° ha(ube)au), 
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wobei für x die Werte der Referenzgruppe einzusetzen sind, zu 14 Seme- 
ster (sechs Semester über der Mindeststudiendauer) geschätzt werden. Tabelle 
12.7 zeigt die Parameterschätzer des finalen Modells (unter Einbeziehung von 
Stamm- und Prüfungsdaten) für die Multiplikatoren der medianen Reststudi- 
endauer der Referenzgruppe. Zu erwähnen ist, dass die Variablen “woche2” bis 
“woche5” nach Einbeziehen der Prüfungsdaten keinen Erklärungsbeitag mehr 
liefern und daher nicht mehr in das Modell einbezogen wurden. 


Tabelle 12.7: Analyse der medianen Reststudiendauer der Jahrgänge 1989 bis 
1993 auf Basis der Stamm- und Prüfungsdaten (log-logistisches Modell 


Model Information 


Number of Observations 5466 
Noncensored Values 3034 
Right Censored Values 2432 
Name of Distribution LLogistic 
Log Likelihood -4549.075241 


Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 
Parameter DF Estimate Error Limits Square Pr > ChiSq 
Intercept 1 3.6892 0.0985 3.4961 3.8823 1402.07 <.0001 
matalti 1 0.1289 0.0412 0.0482 0.2096 9.80 0.0017*** 
lagi 1 0.1349 0.0653 0.0069 0.2628 4.27 0.0389%** 
lag4 1 -0.0908 0.0479 -0.1848 0.0031 3.59 0.0582* 
sex 1 0.0846 0.0317 0.0223 0.1468 7.10 0.0077*** 
sex*ahs 1 0.0764 0.0411 -0.0042 0.1569 3.45 0.0632* 
hak 1 0.1290 0.0301 0.0700 0.1880 18.35 <.0001*** 
htl 1 0.0926 0.0426 0.0091 0.1760 4.73 0.0297** 
gesposji 1 -0.0882 0.0042 -0.0965 -0.0799 433.05 <.0001**+ 
vpj1 1 -0.4043 0.0376 -0.4781 -0.3306 115.48 <.0001*** 
average 1 0.1962 0.0210 0.1551 0.2373 87.56 <.0001**%* 
Scale 1 0.3989 0.0061 0.3872 0.4110 


*p<0.1; **p<0.05; ***p<0.01 


Die Parameterschätzer können wie folgt interpretiert werden: 


e “matalt1”: Für Studierende, die bei der Matura älter als 20 Jahre sind, und 
sonst die gleichen Ausprägungen der restlichen Variablen haben, ist eine 
um etwa 14% höhere (mediane) Reststudiendauer zu erwarten als für die 
Referenzgruppe, somit eine Gesamtstudiendauer von ca. 14.8 Semestern; 
auch nach Einbeziehen der Prüfungsdaten behält die Variable “matalt1” 
somit ihren Erklärungsbeitrag (wenn auch etwas abgeschwächt). 


e “hak, htl”: Der Parameterschätzer der Variablen “hak” weist auf eine längere 
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Reststudiendauer für Studierende mit HAK-Matura hin; ohne Einbeziehung 
der Leistungsvariablen wurde für Studierende mit HAK-Matura eine et- 
was geringere Studiendauer geschätzt; vgl. Tabelle 12.5. Eine nähere Unter- 
suchung hierzu hat gezeigt, dass Studierende mit HAK-Matura im ersten 
Studienjahr durchschnittlich zwei bis drei Lehrveranstaltungen (exklusive 
Ergänzungsprüfungen) mehr ablegen als Studierende von anderen Schul- 
typen, und dass sie daher ohne Berücksichtigung der Prüfungsdaten eine 
kürzere Studiendauer zu erwarten haben. Die Ausprägung “hak” korreliert 
somit mit den Leistungen des ersten Studienjahres. 


Ein HTL-Abschluss lässt (bei gleicher Ausprägung aller anderen Variablen) 
eine etwas längere Studiendauer erwarten. 


e “sex, sex*ahs”: Die Interpretationen dieser Variablen sind auch nach Ein- 
beziehung der Leistungsvariablen fast gleich geblieben. 


Die einbezogenen Prüfungsvariablen zeigen den erwartet hohen Einfluss auf 
die Studiendauer: 


e “gesposj1”: Eine zusätzlich positiv absolvierte Lehrveranstaltungsprüfung 
verringert die gesamte Studiendauer im Vergleich zur Referenzgruppe auf 
etwa 13.5 Semester; verringert sich die Zahl der absolvierten Lehrveranstal- 
tungsprüfungen um eine, so erhöht sich die Studiendauer auf 14.5 Semester. 


e “average”: Ein um ein Grad schlechterer (besserer) Notendurchschnitt als 
Drei erhöht (verringert) die geschätzte Studiendauer auf über 15 (bzw. unter 
13 Semester). 


e “vpjl”: Das Absolvieren mindestens einer Diplomprüfung im ersten Stu- 
dienjahr verringert die erwartete Studiendauer. 


12.3 Analyse der Studienabschlussrate - semi- 
parametrische Modellierung 


Mit parametrischen und semiparametrischen Ereignismodellen werden meist 
ähnliche Analyseziele verfolgt: die Ermittlung von Einflussfaktoren auf die be- 
trachtete Zeitdauer bzw. auf die Hazardrate für das Eintreffen des betrachteten 
Ereignisses. Während sich jedoch die Analysen mit parametrischen Regressi- 
onsmodellen häufig auf die Verteilung der betrachteten Zeitdauer konzentrie- 
ren, steht bei den flexibleren semiparametrischen Modellen die Analyse von 
Einflussfaktoren auf die Hazardrate im Vordergrund. 
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Bei den folgenden Analysen ist zu beachten, dass das semiparametrische Cox- 
Modell linear in In h(t) formuliert ist und die in den vorangegangenen Abschnit- 
ten verwendeten parametrischen Modelle linear in ln t sind. Die Regressionsko- 
effizienten von semiparametrischen Modellen sind nicht direkt vergleichbar mit 
den Koeffizienten von log-logistischen Modellen, da das log-logistische Modell 
kein proportionales Hazards-Modell ist. Vergleichbar sind die p-Werte und die 
Vorzeichen der geschätzten Parameter, die im Cox-Modell genau in die entge- 
gengesetzte Richtung sein müssten. Die Koeffizienten des in Int formulierten 
Exponential- und Weibull-Modells hingegen sind durch Wechsel des Vorzei- 
chens und (im Weibull-Modell) Dividieren der Regressionskoeffizienten durch 
o direkt vergleichbar mit dem Cox-Modell, da beide Modelle sowohl propor- 
tionale Hazards- als auch log-lineare Modelle sind; vgl. Kapitel 5. 


Da das semiparametrische Modell von Cox nur die geordneten Ereigniszei- 
ten berücksichtigt und keine Verteilungsannahme voraussetzt, ist für die fol- 
genden Modellierungen keine Implementierung einer Garantiezeit notwendig. 
Alle Studienabbrüche, die vor dem ersten Studienabschluss erfolgt sind, wer- 
den entsprechend der Konstruktion der partiellen Likelihood-Funktion bei der 
Schätzung der Parameter nicht berücksichtigt; siehe Abschnitt 6.2. Im Gegen- 
satz zu den parametrischen Modellen mit der Garantiezeit von acht Semester 
werden jedoch jene 1% der Studienabschlüsse berücksichtigt, die vor Ende des 
achten Semesters erfolgt sind. 


Studienabschlussrate: Effekte in Abhängigkeit der Stamm- 
daten aus der Hörerevidenz 


In einem ersten Schritt wurde das semiparametrische Cox-Modell für die Da- 
ten aus der Hörerevidenz der Jahrgänge 1989 bis 1993 implementiert. Die 
geschätzten Regressionskoeffizienten unter Berücksichtigung von Interaktion- 
variablen (sowie die Anzahl der Ereignisse und der zensierten Fälle und die 
durchgeführten Tests zur globalen Hypothese, dass alle Parameter gleich Null 
sind) zeigt Tabelle 12.8. Aufgrund von Modellüberprüfungen wurden die Va- 
riablen “matalt” und “lag” wieder als kategorielle Variablen entsprechend dem 
vorhergehenden Abschnitt implementiert. 


Die Regressionskoeffizienten können (auszugsweise) wie folgt interpretiert wer- 
den: 


e “matalt1”: Studierende, die bei der Matura älter als 20 Jahre sind, haben zu 
jedem Zeitpunkt t(> 42) bei gleichen Ausprägungen der sonstigen Variablen 
eine um 36% geringere Hazardrate für den Studienabschluss als die Refe- 
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Tabelle 12.8: Parameterschätzer eines semiparametrischen Cox-Modells für den 
Studienabschluss auf Basis der Stammdaten der Jahrgänge 1989 bis 1993 


Summary of the Number of Event and Censored Values 


Percent 

Total Event Censored Censored 

9322 3132 6190 66.40 

Testing Global Null Hypothesis: BETA=0 

Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 290.4539 16 <.0001 
Score 262.8445 16 <.0001 
Wald 253.6604 16 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 -0.44169 0.07529 34.4173 <.0001 0.643%*** 
lagi 1 -0.50877 0.15391 10.9273 0.0009 0.601%*** 
lag2 1 -0.30229 0.15181 3.9649 0.0465 0.739**« 
lag3 1 0.15743 0.05031 9.7931 0.0018 1.171*** 
lag4 1 0.10007 0.08151 1.5072 0.2196 1.105 
sex 1 -0.22356 0.05854 14.5836 0.0001 0.800**x* 
sex*ahs 1 -0.16138 0.07487 4.6469 0.0311 0.851** 
hak i 0.08960 0.05366 2.7880 0.0950 1.094* 
htl 1 -0.08006 0.07712 1.0778 0.2992 0.923 
hla 1 -0.08040 0.09620 0.6985 0.4033 0.923 
other 1 -0.10782 0.12891 0.6995 0.4029 0.898 
sex*woche2 1 0.21468 0.09180 5.4694 0.0194 1.239** 
woche2 1 -0.33929 0.06868 24.4028 <.0001 0.712***« 
woche3 1 -0.30149 0.07362 16.7707 <.0001 0.740*** 
woche4 1 -0.29809 0.13465 4.9009 0.0268 0.742** 
woche5 1 -0.49143 0.14165 12.0366 0.0005 0.612%*** 


*p<0.1; **p<0.05; ***p<0.01 


renzkategorie. Dieser Wert ist aus der Spalte Hazard Ratio herauszulesen 
(1-0.643=0.357). Der p-Wert ist kleiner als 0.0001. 


e “lagl” bis “lag4”: Immatrikulierte, die zum ersten Matura-Nachtermin im 
September bzw. Oktober angetreten sind (“lagl”), haben zu jedem Zeit- 
punkt t(> 42) eine um 40% geringere Chance auf einen erfolgreichen Studi- 
enabschluss (unter gleicher Ausprägung aller anderen Variablen; p = 0.0009); 
entsprechend sind auch die Variablen “lag2” bis “lag4” zu interpretieren. 


e “sex”: Die Studienabschlussrate von Studenten ist um 20% geringer als die 
von Studentinnen. 
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e “hak”: HAK-AbsolventInnen haben eine um 9% höhere Hazardrate für den 
Studienabschluss. 


e “sex*ahs”: Der Effekt des Schultyps AHS ist je Geschlecht unterschiedlich. 
Männliche AHS-Absolventen haben eine um 32% (1 — exp(—0.22 — 0.16)) 
geringere Abschlussrate als AHS-Absolventinnen. 


e “woche2” bis “woche5”: Spätere Immatrikulationen als in der ersten Woche 
verringern die Hazardrate auf den Studienabschluss. 


Alle Variablen liefern somit eine ähnliche Interpretation — soweit vergleichbar 
— wie im log-logistischen Modell. 


Auf Überprüfungen der Proportionalitätsannahme im Cox-Modell wird im 
nächsten Unterabschnitt eingegangen. 


Studienabschlussrate: Effekte in Abhängigkeit von Stamm- 
und Prüfungsdaten 


Im nächsten Schritt wurde das semiparametrische Cox-Modell aus Tabelle 12.8 
um die Prüfungsdaten des ersten Studienjahrs (“gesposj1”, “vpj1”, “average” ) 
erweitert. Dieses Modell berücksichtigt wieder nur Studierende, die im ersten 
Studienjahr mindestens eine Leistung erbracht haben. Mit Hilfe von Martingal- 
Residuen, die auf Basis aller Stammdaten und “vpjl” ermittelt worden sind, 
wurde für das Cox-Modell überprüft, ob die kontinuierlich skalierten Variablen 
“gesposj1” und “average” linear auf In A(t) wirken. 


Abbildung 12.9 zeigt, dass der Effekt der Anzahl der Prüfungen annähernd 
linear ist. Die Überprüfung der linearen funktionalen Form der Variablen No- 
tendurchschnitt ergab ebenfalls, dass die lineare funktionale Form passend ist. 


Im Kapitel 6 ist erläutert worden, dass das Cox-Modell proportionale Ha- 
zardraten für unterschiedliche Ausprägungen von Kovariablen voraussetzt. In 
Abschnitt 6.5 wurden einige Methoden zur Überprüfung dieser Modellannah- 
me erläutert. Zur graphischen Überprüfung der Proportionalitätsannahme ei- 
ner Variablen etwa wird das Modell nach diesem Merkmal geschichtet und 
in Abhängigkeit der anderen Kovariablen geschätzt. Der Plot der geschichte- 
ten logarithmierten Überlebensfunktionen sollte dann annähernd parallel sein. 
Abbildung 12.10 zeigt diese graphische Überprüfung für die Variable “vpj1”. 


An der Abbildung ist zu erkennen, dass die beiden Kurven eine ähnliche Form 
haben, jedoch vor allem in den ersten Semestern, in denen Abschlüsse auf- 
treten können, etwas mehr voneinander abweichen als in späteren Semestern. 
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Abbildung 12.9: Plot der (geglätteten) Martingal-Residuen gegen die Variable 
“gesposj1” (Cox-Modell) 


Dies deutet daraufhin, dass das Ablegen mindestens einer Vor- bzw. Teildi- 
plompriifung im ersten Studienjahr die Chance auf den Studienabschluss ins- 
besondere zwischen dem achten und zwölften Semester erhöht, und sich dieser 
Unterschied danach verringert. 


Will man den gleichen graphischen Test fiir die Variable “gesposj1” durchführen, 
so muss dieses (kontinuierlich skalierte) Merkmal kategorisiert werden. Eine 
Gruppierung der Variablen in die Kategorien 0-3 (“posj1=1”), 4-7 (“posj1=2”), 
8-10 (“posj1=3”) und mehr als 10 positive Leistungen im ersten Studienjahr 
(“posj1=4”) führt zur Abbildung 12.11, wobei “posjl1” die gruppierte Varia- 
ble “Anzahl der positiven Leistungen im ersten Studienjahr” bezeichnet. Diese 
Abbildung liefert eine ähnliche Interpretation wie Abbildung 12.10. 


Der gleiche Test für den Notendurchschnitt führt zur Abbildung 12.12; die- 
se zeigt, dass die Kurven für die vier Notenkategorien [1,2) (“av=1”), [2,3) 
(“av=2”), [3,4) (“av=3”), [4,5] (“av=4”) ähnliche Form haben, jedoch in den 
ersten Semestern, in denen Abschlüsse auftreten können, wieder etwas weiter 
voneinander entfernt sind. 


Ergänzend kann die Proportionalitätsannahme etwa durch Einbeziehen von In- 
teraktionstermen der einzelnen Variablen mit der Zeit überprüft werden; siehe 
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Log of Negative Log of SURVIVAL 


20 30 40 50 60 70 80 90 100 10 120 130 
Studiendauer 
vpjl 0 1 


Abbildung 12.10: Plot der geschichteten (Kaplan-Meier-) Uberlebensfunktionen 
für die binäre Variable “vpjl” (Studiendauer in Monaten) 


Abschnitt 6.5. Fiir den vorliegenden Datensatz wurden in Anlehnung an die 
Abbildungen 12.10, 12.11 und 12.12 die Interaktionvariablen “vpjltime=vpjl 
x Iı<72”, “posjltime=gesposj1 x J;<72” und “avtime=average x I<72” , sowie er- 
gänzend Interaktionen der Variablen aus Tabelle 12.8 mit Int, t > 42, gebildet. 
Während die Interaktionsterme mit den Prüfungsvariablen p-Werte kleiner als 
0.0001 liefern, zeigen alle anderen gebildeten Interaktionsvariablen mit der 
Zeit keinen Einfluss auf die (logarithmierte) Hazardrate (p > 0.1); auch gra- 
phische Überprüfungen zeigen für diese Variablen keine offensichtlichen Verlet- 
zungen der Proportionalitätsannahme. Daher wird angenommen, dass abgese- 
hen von den Leistungsvariablen die einbezogenen Kovariablen die Proportio- 
nalitätsannahme erfüllen. Tabelle 12.9 zeigt die Parameterschätzer des finalen 
Modells nach Implementierung der Leistungsvariablen und der Interaktions- 
terme “vpjltime”, “posjltime” und “avtime”. 


Die Regressionskoeffizienten des (finalen) Modells aus Tabelle 12.9 sind (aus- 
zugsweise) wie folgt zu interpretieren: 
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Log of Negative Log of SURVIVAL 


20 30 40 50 60 70 80 90 100 110 120 130 
Studiendauer 
posji 7 1." 2 == 3 = 4 


Abbildung 12.11: Plot der geschichteten (Kaplan-Meier-) Uberlebensfunktionen 


fiir die gruppierte Variable “posj1” 


e “matalt1”: Studierende, die bei der Matura älter als 20 Jahre sind, haben 


zu jedem Zeitpunkt t(> 42) bei gleichen Ausprägungen der sonstigen Va- 
riablen eine um 18% geringere Hazardrate für den Studienabschluss als die 
Referenzkategorie; p = 0.0096. Die Variable “matalt1” liefert somit auch 
nach der Einbeziehung der Leistungsvariablen eine beinahe unveränderte 
Interpretation. 


“hak, htl”: Analog zur Analyse der Reststudiendauer mit Hilfe des log- 
logistischen Modells verändert die Variable “hak” nach Einbeziehung der 
Priifungsdaten ihre Richtung; ein HAK-Abschluss fiihrt bei gleichen er- 
brachten Leistungen im ersten Studienjahr zu einer geringeren Hazardrate 
gegentiber AHS-AbsolventInnen. 


Ein HTL-Abschluss verringert (bei gleicher Ausprägung aller anderen ein- 
bezogenen Variablen) die Studienabschlussrate. 


“gesposj1” und “posjltime”: Je höher die Anzahl der positiven Leistungen 
im ersten Studienjahr, desto höher ist zu jedem Zeitpunkt die Chance auf 
den Studienabschluss. Dieser Effekt ist besonders ausgeprägt für die Zeit bis 
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Log of Negative Log of SURVIVAL 


20 30 40 50 60 70 80 90 100 1o 120 130 
Studiendauer 


av 1." 2 "= go’ 4 


Abbildung 12.12: Plot der geschichteten (Kaplan-Meier-)Überlebensfunktionen 


für die gruppierte Variable “av” 


zum Ende des zwölften Semesters (exp(0.1 + 0.1) — 1 = 22% pro Prüfung). 
Für die Zeit danach lässt der Effekt der positiven Leistungen des ersten 
Studienjahrs nach (11%). 


“ypjl” und “vpjltime”: Das Ablegen mindestens einer positiven Vor- bzw. 
Teildiplomprüfung (im ersten Studienjahr) erhöht die Chance auf den Stu- 
dienabschluss. Dieser Effekt ist besonders ausgeprägt für die Zeit bis zum 
Ende des zwölften Semesters (exp(0.21 + 0.50) — 1 = 103%). Für die Zeit 
danach lässt der Effekt nach (24%). 


“average” und “avtime”: Ein um ein Grad schlechterer (besserer) Noten- 
durchschnitt erhöht (verringert) die Studienabschlussrate - um knapp 40% 
für Studienabschlüsse bis zum zwölften Semester und um knapp 10% für 
spätere Abschlüsse. 


Werden bei vorhandenen zeitvariierenden Effekten von Variablen nicht die ent- 
sprechenden Interaktionsvariablen in das Modell einbezogen, so können die Pa- 


rameterschätzer dieser Variablen als durchschnittlicher Effekt (über die Zeit) 
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Tabelle 12.9: Parameterschätzer eines semiparametrischen Cox-Modells für den 
Studienabbschluss auf Basis der Stamm- und Prüfungsdaten (Jahrgänge 1989 
bis 1993) 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
7463 3063 4400 58.96 
Testing Global Null Hypothesis: BETA=0 
Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 1951.6957 12 <.0001 
Score 2176.0183 12 <.0001 
Wald 1898.5036 12 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 -0.19758 0.07632 6.7022 0.0096 0.821*** 
lagi 1 -0.36983 0.12768 8.3905 0.0038 0.691*** 
sex 1 -0.16187 0.05440 8.8530 0.0029 0.851x*x*% 
sex*ahs 1 -0.17570 0.07100 6.1244 0.0133 0.839** 
hak 1 -0.28302 0.05162 30.0578 <.0001 0.754*** 
htl 1 -0 . 22269 0.07435 8.9708 0.0027 0.800*** 
gesposji 1 0.10370 0.00882 138 . 2860 <.0001 1.109*** 
posjitime 1 0.10325 0.01448 50.8710 <.0001 1.109%**« 
vpji 1 0.21307 0.09713 4.8119 0.0283 1.237 x%*%* 
vpjitime 1 0.49884 0.12202 16.7142 <.0001 1.647*** 
average 1 -0.22396 0.04502 24.7467 <.0001 0.799*** 
avtime 1 -0.29010 0.07274 15.9046 <.0001 0.748x*%** 


*p<0.1; **p<0.05; ***p<0.01 


auf die Studienabschlussrate gesehen werden. Das Hazard-Verhältnis der Va- 
riablen “gesposj1” etwa kann ohne Berücksichtigung der Interaktionsvariablen 
auf 14% geschätzt werden. Die anderen einbezogenen Variablen bleiben prak- 
tisch unverändert. 


Studienabschlussrate: Effekte in Abhängigkeit von Daten 
der Stichproben-Population 


In diesem Unterabschnitt werden die aus einer Befragung erhaltenen Daten 
für die (inländischen) Immatrikulierten der Wintersemester 1990 und 1993 
(siehe Abschnitt 10.2) ergänzend zu den Daten aus der Hörerevidenz in das 
semiparametrische Cox-Modell für den Studienabschluss aufgenommen. Es gilt 
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zu überprüfen, ob die Variablen 


e Schul-Abschlussnoten aus Mathematik und Englisch 


Berufstätigkeit neben dem Studium 


zweite Ausbildung neben dem Studium 


e Kinderbetreuung während des Studiums 


die Hazardrate für den Studienabschluss beeinflussen. Der Schwerpunkt liegt 
in der Modellierung der Merkmale Berufstätigkeit, zweite Ausbildung und Kin- 
derbetreuung als zeitabhängige Variablen. 


Im Abschnitt 11.1 wurden die Merkmal-Verteilungen der Stichproben-Popu- 
lation mit den entsprechenden Verteilungen der gesamten Population vergli- 
chen. Es konnten keine überzufälligen Abweichungen der Stichprobe festgestellt 
werden. In einem zusätzlichen Vergleichsschritt werden nun die Ergebnisse der 
Implementierung eines semiparametrischen Cox-Modells für die Stammdaten 
aus der Hörerevidenz von (i) allen Immatrikulierten der Jahrgänge 1990 und 
1993 (siehe Tabelle 12.10 für das entsprechende Modell nach Reduzierung von 
Variablen-Kategorien) und von (ii) den Befragten (siehe Tabelle 12.11) ge- 
genübergestellt. 


Die Parameterschätzer in den beiden Tabellen sind sehr ähnlich. Bildet man 
etwa in Tabelle 12.11 90%-Konfidenzintervalle für die wichtigsten Parame- 
terschätzer (p < 0.1), so fallen die entsprechenden Parameterschätzer aus 
Tabelle 12.10 in dieses Konfidenzintervall. Die Hypothese, dass alle Parame- 
terschätzer gleich Null sind, wird in Tabelle 12.11 für alle drei Tests (Likelihood- 
Quotienten-, Score und Wald-Test) mit p-Werten kleiner als 0.001 abgelehnt; 
allerdings haben (im Gegensatz zu Tabelle 12.10) nur drei Variablen (“sex*ahs”, 
“matalt1” und “woche5”) einen p-Wert kleiner als 0.1. Dies ist auf das weitaus 
kleinere n = 703 (gegenüber n = 3572) zurückzuführen. Es sei noch ange- 
merkt, dass die Analyse aus Tabelle 12.10 ähnliche Ergebnisse liefert wie die 
entsprechende Analyse für die Jahrgänge 1989 bis 1993 (vgl. Tabelle 12.8). 


Im nächsten Schritt wurden zusätzlich zu den Variablen aus der Hörerevidenz 
die aus der Befragung gewonnene Information über die Schul-Abschlussnoten 
aus Mathematik und Englisch sowie über die Berufstätigkeit im ersten Se- 
mester (gemessen in durchschnittlichen Wochenstunden) in das Modell einbe- 
zogen. Dieses Modell setzt sich somit mit der Frage auseinander, welche der 
einbezogenen, zu Beginn des Studiums (bzw. nach einem Semester) bekannten 
demographischen Merkmale einen Einfluss auf die Studiendauer haben. 
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Tabelle 12.10: Parameterschätzer eines semiparametrischen Cox-Modells für 
den Studienabschluss für die Jahrgänge 1990 und 1993 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
3572 1162 2410 67.47 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 131.3220 11 <.0001 
Score 113.8252 11 <.0001 
Wald 107.9484 11 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 -0.54104 0.13311 16.5212 <.0001 0.582x*x** 
lagi 1 -0.58358 0.26158 4.9773 0.0257 0.558** 
lag34 1 0.12173 0.07321 2.7646 0.0964 1.129% 
sex 1 -0.15328 0.07986 3.6839 0.0549 0.858* 
sex*ahs 1 -0.22112 0.09304 5.6482 0.0175 0.802** 
hak 1 0.21002 0.06878 9.3238 0.0023 1.234*** 
sex*woche2 1 0.22059 0.15301 2.0784 0.1494 1.247 
woche2 í -0.27386 0.11653 5.5231 0.0188 0.760** 
woche3 1 -0.19230 0.11649 2.7249 0.0988 0.825* 
woche4 1 -0.26548 0.22354 1.4104 0.2350 0.767 
woche5 1 -0.88519 0.24480 13.0750 0.0003 0.413*** 


*p<0.1; **p<0.05; ***p<0.01 


Beide die Noten betreffenden kategoriellen Variablen wurden (aufgrund von 
vorangegangenen Modellüberprüfungen) als binäre Variablen (“mathe34” bzw. 
“englisch34”) in das Modell aufgenommen, die die Noten Eins und Zwei in 
die Referenzkategorie zusammenfassen. Die graphische Überprüfung lässt für 
beide Variablen leichte Verletzungen der Proportionalitätsannahme erkennen. 
Abbildung 12.13 zeigt für “englisch34”, dass etwa bis zum Ende des drei- 
zehnten Semester die Kurven (zumeist) etwas weiter auseinander liegen als 
danach. Dies lässt vermuten, dass in späteren Semestern der Einfluss der 
Schulnoten auf die Studienabschlussrate nachlässt. Neben den Haupteffekten 
wurden daher die Interaktionsvariablen “englischtime=englisch34 x I;<73” und 
“mathetime=mathe34 x <78” in das Cox-Modell implementiert. 


Die kontinuierlich skalierte Variable Berufstätigkeit im ersten Semester wur- 
de analog zu Abschnitt 11.1 in die vier Kategorien “nicht berufstätig” (Re- 
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Tabelle 12.11: Parameterschätzer eines semiparametrischen Cox-Modells für 
den Studienabschluss auf Basis einer Stichprobe der Jahrgänge 1990 und 1993 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
703 250 453 64.44 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 36.3989 11 0.0001 
Score 32.4393 11 0.0006 
Wald 30.4678 11 0.0013 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 

Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 -0.41796 0.22927 3.3232 0.0683 0.658* 
lagi 1 -0.65716 0.63066 1.0858 0.2974 0.518 
lag34 1 0.13234 0.15667 0.7134 0.3983 1.141 
sex 1 -0.17877 0.16707 1.1450 0.2846 0.836 
sex*ahs 1 -0.33409 0.19924 2.8119 0.0936 0.716* 
hak 1 0.19338 0.14901 1.6842 0.1944 1.213 
sex*woche2 1 0.31436 0.34197 0.8450 0.3580 1.369 
woche2 1 -0.39241 0.26400 2.2094 0.1372 0.675 
woche3 1 -0.09865 0.26057 0.1433 0.7050 0.906 
woche4 1 -0.19724 0.55177 0.1278 0.7207 0.821 
woche5 1 -1.02462 0.47060 4.7405 0.0295 0.359** 


*p<0.1; **p<0.05; ***p<0.01 


ferenzkategorie), “geringfügig - (=jobl)”, “teilzeit - (=job2)” und “vollzeit 
beschäftigt (=job3)” unterteilt. Bei Implementierung dieses Modells erhalten 
wir die Parameterschätzer in Tabelle 12.12, wobei die Tabelle nur noch jene 
Variablen aus der Hörerevidenz mit p < 0.3 (und die entsprechenden Haupt- 
effekte) zeigt. 


Die Parameterschätzer der Variablen aus der Hörerevidenz zeigen sich nach 
Einbeziehung der ergänzenden Variablen aus der Befragung leicht verändert ge- 
genüber Tabelle 12.11. Die Richtung der Variablen blieb gleich, jedoch änderte 
sich bei einigen Variablen der p-Wert. Die Parameterschätzer der aus der Befra- 
gung gewonnenen Variablen zeigen größtenteils einen hohen Erklärungsbeitrag 
(geringe p-Werte) und sind wie folgt zu interpretieren: 


e “mathe34, mathetime, englisch34, englischtime”: Die Haupteffekte “ma- 
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Log of Negative Log of SURVIVAL 


20 30 40 50 60 70 80 90 100 10 20 130 


englisch34 — 0 s 1 


Abbildung 12.13: Plot der geschichteten (Kaplan-Meier-)Überlebensfunktionen 
für die binäre Variable “englisch34” 


the34” und “englisch34”, die sich auf Studienabschlüsse nach dem drei- 
zehnten Semester beziehen, zeigen keinen (überzufälligen) Einfluss auf die 
Studienabschlussrate. Bei Studienabschlüssen vor dem dreizehnten Seme- 
ster hingegen zeigen die Schulnoten den erwarteten negativen Effekt auf 
die Studienabschlussrate. Die Hazardrate für den Studienabschluss ist bis 
zum dreizehnten Semester für Studienanfänger, die die Schule in Mathema- 
tik bzw. in Englisch mit den Noten Drei oder Vier abgeschlossen haben, 
unter gleicher Ausprägung der restlichen einbezogenen Variablen (durch- 
schnittlich) um exp(—0.95 — 0.18) = 68% bzw. 51% geringer als von Im- 
matrikulierten mit den Noten Eins oder Zwei in diesen Fächern. Bezieht 
man keine Interaktionsvariablen mit der Zeit ein, so können die entspre- 
chenden Regressionskoeffizienten als durchschnittliche Effekte über die Zeit 
interpretiert werden. 


e Beschäftigung im ersten Semester: Etwas überraschend ist der positive Ko- 
effizient (p = 0.02) der Variablen “geringfügig beschäftigt” (“job1”), der 
besagt, dass die (im ersten Semester) geringfügig Beschäftigten eine (um 
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Tabelle 12.12: Parameterschätzer eines semiparametrischen Cox-Modells 
für den Studienabschluss unter ergänzender Berücksichtigung von zeitun- 
abhängigen Variablen aus der Befragung 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 115.4712 13 <.0001 
Score 104.8895 13 <.0001 
Wald 94.0880 13 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 -0.25243 0.23530 1.1509 0.2834 0.777 
lagi 1 -0.54096 0.62981 1.0425 0.3042 0.582 
lag4 1 0.72911 0.26046 7.8363 0.0051 2.073¥** 
sex 1 0.02122 0.15303 0.0192 0.8897 1.021 
sex*ahs 1 -0.31302 0.19769 2.5071 0.1133 0.731 
hak 1 0.34668 0.14880 5.4281 0.0198 1.414** 
woche5 1 ~0.92325 0.46773 3.8963 0.0484 0.397%* 
mathe34 1 -0.18241 0.20904 0.7614 0.3829 0.833 
mathet ime 1 -0.94893 0.29456 10.3779 0.0013 0.387*** 
englisch34 1 -0.06154 0.20993 0.0859 0.7694 0.940 
englischtime 1 -0.65645 0.28868 5.1710 0.0230 0.519** 
jobi 1 0.45300 0.19724 5.2750 0.0216 1.573%* 
job2 1 0.19818 0.17069 1.3481 0.2456 1.219 
job3 ł -0.92281 0.35132 6.8993 0.0086 0.397*** 


*p<0.1; **p<0.05; ***p<0.01 


57%) höhere Hazardrate für den Studienabschluss als Nicht-Beschäftigte 
haben. Vollzeit Berufstätige weisen dagegen — wie erwartet — eine deutlich 
niedrigere Studienabschlussrate auf. Mehr Aufschluss über den Einfluss der 
Berufstätigkeit gibt die Modellierung der Variablen als zeitabhängige Größe. 


Als Alternative wurden die letzten beiden Modelle auf Basis der in Abschnitt 
10.2 angeführten Definition (c) - die Studiendauer ist die Zeit zwischen Stu- 
dienbeginn und dem auf Befragung angegebenen Datum des Studienabschlus- 
ses bzw. Studienabbruchs - für die Studiendauer implementiert; es konnten 
keine überzufälligen Unterschiede in den Ergebnissen beobachtet werden. 


Im letzten Schritt wurden dann die erhobenen zeitabhängigen Variablen in das 
Cox-Modell einbezogen. Mit diesen Variablen wird der Frage nachgegangen, ob 


e der Beginn einer Erwerbstätigkeit bzw. eine Steigerung der Berufsintensität, 
oder 
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e der Beginn bzw. das (ernsthafte) Betreiben eines zweiten Universitätsstu- 
diums, oder 


e die Geburt und folglich die Betreuung eines Kindes 


den Studienverlauf verzögern. 


Wie im Abschnitt 6.3 diskutiert, können zeitveränderliche Variablen je nach 
Fragestellung unterschiedlich in ein Modell aufgenommen werden. In einem 
ersten Schritt muss das unterschiedliche Messniveau der abhängigen Varia- 
blen (Studiendauer in Monaten) und der zeitveränderlichen Kovariablen (Be- 
rufsintensität je Semester) berücksichtigt werden. Dazu werden die Werte der 
zeitabhängigen Kovariablen zum Zeitpunkt (Monat) eines Ereignisses durch 
die Werte der Kovariablen in jenem Semester, in dem das Ereignis eingetroffen 
ist, approximiert. Danach wurde die Berufstätigkeit in verschiedenen Varianten 
in das Modell aufgenommen: 


e als Berufsintensität im Vorsemester eines Studienabschlusses; in diesem Fall 
wird zu jedem Zeitpunkt eines Studienabschlusses für alle Studierenden aus 
der Risikomenge die Berufsintensität des Vorsemesters ermittelt und vergli- 
chen. 


e als durchschnittliches Berufsausmaß in den letzten drei Semestern vor ei- 
nem Studienabschluss; für jeden Studierenden aus der Risikomenge wird zu 
jedem Zeitpunkt eines Ereignisses die durchschnittliche Berufsintensität in 
den drei Semestern zuvor ermittelt. 


e als durchschnittliches Berufsausmaß seit Studienbeginn; für jeden Studie- 
renden aus der Risikomenge wird zu jedem Zeitpunkt eines Ereignisses die 
durchschnittliche Berufsintensität seit Studienbeginn ermittelt. 


Bei allen drei Varianten wird das durchschnittliche Berufsausmaß im Seme- 
ster des Studienabschlusses nicht berücksichtigt, da die Möglichkeit besteht, 
dass Studierende zu Beginn eines Semesters abgeschlossen haben und in Folge 
die Berufsintensität (in diesem Semester) erhöht haben (wechselseitige Be- 
einflussung); siehe Abschnitt 6.3. Bei der getrennten Implementierung dieser 
Variablen zeigt sich, dass jede Variable für sich einen massiven Einfluss auf 
die Studienabschlussrate hat. Werden die Variablen gemeinsam in das Mo- 
dell aufgenommen, so ist zu erkennen, dass die drei Variablen — wie vermutet 
— stark korrelieren. In das finale Modell wurde die Berufstätigkeit im Vorse- 
mester (“emp”) und die durchschnittliche Berufsintensität seit Studienbeginn 
(“empav”) als kontinuierlich skalierte Variablen aufgenommen. 
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Auch die zeitabhängige Variable, die die zweite Ausbildung parallel zum WU- 
Studium betrifft, kann in verschiedenen Varianten in das Modell aufgenommen 
werden: 


e als binäre Variable, die zu jedem Zeitpunkt eines Studienabschlusses für alle 
Studierenden aus der Risikomenge angibt, ob im laufenden Semester (oder 
im Vorsemester, keine Unterschiede im Ergebnis) eine zweite Ausbildung 
besucht wird oder nicht; 


e als kontinuierliche Variable, die zu jedem Zeitpunkt eines Studienabschlus- 
ses für alle Studierenden aus der Risikomenge angibt, wieviele Semester sie 
bisher in eine zweite Ausbildung neben dem WU-Studium investiert haben. 


Bei getrennter Implementierung dieser beiden Variablen zeigt die Anzahl der 
Semester in einer zweiten Ausbildung einen kleineren p-Wert und wird daher 
in das finale Modell aufgenommen (“cumbildg”). 


Die Variable Kinderbetreuung kann analog zur zweiten Ausbildung implemen- 
tiert werden. Auch in diesem Fall wird die Anzahl der Semester mit Kinder- 
betreuung als zeitveränderliche Variable in das Modell aufgenommen (“cum- 
kind”). 

Durch Aufnahme der eben erläuterten zeitveränderlichen Variablen in das Mo- 
dell erhalten wir die Tabelle 12.13. Die Berücksichtigung der zeitabhängigen 
Variablen erfordert die Implementierung der Studiendauer (bis zum Studien- 
abschluss bzw. bis zum Studienabbruch) entsprechend Definition (c), da diese 
Variablen auch nur bis zum selbst genannten Semester des Studienabschlusses 
bzw. Studienabbruchs beobachtet werden konnten. 


Alle zeitveränderlichen Variablen zeigen einen deutlichen Effekt auf die Studi- 
enabschlussrate. Die Richtungen der Parameterschätzer der zeitveränderlichen 
Variablen sind alle wie erwartet. Je mehr 


e Wochenstunden im Semester zuvor (und auch durchschnittlich) in einen 
Job, 


e Semester für eine zweite Ausbildung und für Kinderbetreuung 


investiert wurden, desto geringer ist (zu jedem Zeitpunkt t(> 42)) die Studi- 
enabschlussrate. Am Hazard-Verhältnis kann wieder die Größenordnung dieser 
Unterschiede abgelesen werden. Jedes Semester mehr, das in eine zweite Ausbil- 
dung seit Studienbeginn investiert wurde, verringert die Studienabschlussrate 
um knapp 10%. Ergänzend wurde noch getestet, ob die Variable “cumkind” 
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Tabelle 12.13: Parameterschätzer eines semiparametrischen Cox-Modells für 
den Studienabschluss unter Berücksichtigung der erhobenen zeitabhängigen 
Variablen 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 147 .0680 13 <.0001 
Score 132.0959 13 <.0001 
Wald 128.1594 13 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 -0.39383 0.23095 2.9080 0.0881 0.674x* 
lagi 1 -0.78372 0.52435 2.2340 0.1350 0.457 
lag4 1 0.62806 0.26554 5.5944 0.0180 1.874xx* 
sex 1 0.30303 0.16994 3.1797 0.0746 1.354 x* 
sex*ahs 1 -0.68226 0.20017 11.6174 0.0007 0.505**x 
htl 1 -0.38383 0.21727 3.1209 0.0773 0.681* 
woche5 1 -0.58984 0.47186 1.5626 0.2113 0.554 
mathe34 1 -0.56918 0.14262 15.9281 <.0001 0.566*** 
englisch34 1 -0.36884 0.14400 6.5610 0.0104 0.692*%* 
empav 1 -0.02067 0.00975 4.4892 0.0341 0.980** 
emp 1 -0.02327 0.00693 11.2645 0.0008 0.977*x* 
cumbildg 1 -0.10440 0.03440 9.2114 0.0024 0.901x*x* 
cumkind 1 -0.11768 0.05282 4.9639 0.0259 0.889** 


*p<0.1; **p<0.05; ***p<0.01 


Wechselwirkungen mit dem Geschlecht zeigt. Die Ergebnisse dieses Modells 
zeigen (wie erwartet) eine Verstärkung des negativen Effekts auf die Studien- 
abschlussrate für weibliche und eine Abschwächung für männliche Studieren- 
de. Aufgrund der geringen Anzahl von Studierenden (siehe Tabelle 11.21), die 
angeben, mindestens ein Semester ein Kind betreut zu haben, und der noch ge- 
ringeren Zahl von Absolventen unter diesen Studierenden sind die Ergebnisse 
allerdings mit Vorsicht zu interpretieren. 


Die Variablen der Hörerevidenz behalten mehrheitlich auch nach Einbeziehen 
der zeitabhängigen Variablen ihre Interpretation - etwa die verringernde Wir- 
kung der Variablen “matalt1” und “woche5” auf die Studienabschlussrate. 


Es sei noch abschließend bemerkt, dass auch nach Einbeziehen der prädiktiven 
Prüfungsdaten aus dem ersten Studienjahr die Variablen “emp” (bzw. “em- 
pav” bei getrennter Implementierung) und “cumkind” unverändert einen ver- 


ringernden Einfluss (p < 0.01) auf die Studienabschlussrate haben. 
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Kapitel 13 


Analyse des Studienabbruchs 


13.1 Einleitung 


Ziel der Analysen diese Kapitels ist die Ermittlung von Variablen, die das Risi- 
ko eines Studienabbruchs erhöhen, wobei vermutet wird, dass die Erklärungs- 
faktoren je nach Zeitpunkt des Studienabbruchs unterschiedlich sein können. 
Insbesondere der Studienabbruch in der Anfangsphase eines Studiums kann 
häufig ganz andere Gründe haben als der Studienabbruch in einer späteren 
Phase des Studiums. So ist zum Beispiel zu erwarten, dass der Zeitpunkt der 
Immatrikulation vor allem zu Studienbeginn einen starken Einfluss auf die 
Studienabbruchrate hat, der dann mit der Zeit abnimmt. 


Aufgrund der deskriptiven Analysen aus Abschnitt 11.1 ist bekannt, dass ein 
hoher Anteil der Immatrikulierten das Studium abbrechen ohne eine einzige 
(positive) Leistung erbracht zu haben (siehe Tabelle 11.1). Da zu vermuten ist, 
dass 


e gerade diese Studienabbrecher andere Abbruchgründe als Spätabbrecher 
(siehe auch Tabelle 11.8 in Abschnitt 11.1) haben bzw. 


e ein Großteil dieser Gruppe nicht wirklich zu den Studierenden der Wirt- 
schaftsuniversität gezählt werden kann (“Schnupperstudierende”), und 


e da insbesondere für diese Studienabbrecher auch keine passende Studien- 
dauer angegeben werden kann, 


werden in diesem Kapitel 
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e Studienabbrüche ohne eine einzige positive Leistung (kann als Proxy für 
Studienabbrüche im ersten Semester gesehen werden), bzw. 


e Studienabbrüche, die nach erfolgreichem Ablegen von Prüfungen erfolgen, 


in getrennten Modellen analysiert. 


Zeitvariierende Effekte bei Studienabbrüchen, die nach erfolgreichem Ablegen 
von Prüfungen erfolgen, können dann über die Einbeziehung einer entspre- 
chenden Interaktionsvariablen zwischen dem betrachteten Merkmal und der 
Zeit in einem semiparametrischen Cox-Modell berücksichtigt werden. 


Die Analyse der Wahrscheinlichkeit eines Studienabbruchs ohne positive Lei- 
stung erfolgte mit Hilfe eines logistischen Regressionsmodells; für die Ana- 
lyse des Studienabbruch-Risikos mit positiven Prüfungsergebnissen ist das 
übergangsspezifische semiparametrische Modell von Cox implementiert wor- 
den. Da die Analyse der Verteilung der Studiendauer bis zum Studienabbruch 
nicht im Mittelpunkt des Interesses steht, wird in dieser Arbeit nicht auf die Im- 
plementierung von log-linearen Regressionsmodellen für den Studienabbruch 
eingegangen. 

Als Datenbasis wurden einerseits wieder die Daten der inländischen Immatri- 
kulierten der Wintersemester 1989/90 bis 1993/94 (gesamte Population) und 
andererseits die Daten aus der ergänzenden Befragung (Stichproben-Population) 
herangezogen. Der Studienabbruch wurde für die Analyse der gesamten Popu- 
lation entsprechend Definition (B) aus Abschnitt 10.1 verstanden. 


13.2 Analyse der Studienabbruch-Wahrschein- 
lichkeit ohne positive Leistung 


Modelle auf Basis der Stammdaten aus der Hörerevidenz 


Zur Analyse der Wahrscheinlichkeit des Studienabbruchs ohne positive Lei- 
stung wurde das logistische Regressionsmodell 


_  exp(fo + x’P) 
a 1 + exp(bo + x’B) 


implementiert. Dabei ist m(x) die Wahrscheinlichkeitsfunktion, dass das binäre 
Merkmal “Abbruch ohne positive Leistung” für ein Individuum als zutreffend 
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bewertet wird. Das Modell wird häufig auch als 


T(x) 


AT 


= b + xP 

angeschrieben. Das Verhältnis m/(1 — m) wird odds genannt; siehe auch Ka- 
pitel 8. Für dieses Modell erhält man für die Jahrgänge 1989 bis 1993 (ohne 
Berücksichtigung von Jahrgangsspezifika) unter Einbeziehung der Stammda- 
ten aus der Hörerevidenz die Tabelle 13.1. 


Tabelle 13.1: Parameterschätzer des logistischen Regressionsmodells für den 
Studienabbruch ohne positives Prüfungsergebnis (Jahrgänge 1989 bis 1993) 


Response Profile 


Ordered Total 
Value pi Frequency 

1 0 2034 

2 1 7288 


Probability modeled is pi=0. 
Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 

Likelihood Ratio 1765 . 4482 14 <.0001 

Score 1912.8409 14 <.0001 

Wald 1408.3359 14 <.0001 

Analysis of Maximum Likelihood Estimates 
Standard Wald 

Parameter DF Estimate Error Chi-Square Pr > ChiSq 
Intercept 1 -2.0628 0.0625 1090.4237 <.0001 
matalti 1 0.8748 0.0750 136.1105 <.0001*«** 
lagi 1 -1.3370 0.1331 100.9497 <.0001#** 
lag2 1 0.4078 0.1612 6.3960 0.0114** 
lag3 1 -0.0673 0.0893 0.5671 0.4514 
lag4 1 0.8533 0.0807 111.7417 <.0001*** 
Sex 1 -0.5657 0.0623 82.3562 <.0001**x* 
hak 1 -0 . 2548 0.0722 12.4468 0.0004*** 
htl 1 0.3682 0.0810 20.6786 <.0001*** 
hla 1 0.2163 0.1258 2.9553 0.0856* 
other 1 -0.0174 0.1525 0.0130 0.9093 
woche2 1 0.7982 0.0730 119.5306 <.0001#*x** 
woche3 1 1.2845 0.0875 215.4019 <.0001**x* 
woche4 1 1.9569 0.1117 307 . 1054 <.0001*** 
woche5 1 2.7318 0.1021 715.4547 <.0001**x* 
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*p<0.1; **p<0.05; ***p<O. 
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Die kontinuierlichen Variablen Alter bei der Matura (“matalt”) und Zeitab- 
stand zwischen Matura und Studienbeginn (“lag”) wurden wie im vorangegan- 
genen Kapitel als kategorielle Variablen implementiert. Die Parameterschätzer 
der Tabelle können wie folgt interpretiert werden: 


e “matalt1”: Der Koeffizient der Variablen ist stark positiv mit einem p-Wert 
kleiner als 0.0001. Die odds für einen Abbruch ohne positive Leistung ist 
(unter gleicher Ausprägung aller anderen einbezogenen Variablen) für Im- 
matrikulierte, die bei der Matura älter als 20 Jahre sind, um 139% höher 
als für Studierende der Referenzkategorie. 


e “lagl” bis “lag4”: Zu beachten ist der negative Koeffizient von “lag1”, der 
(unter gleicher Ausprägung der anderen einbezogenen Kovariablen) besagt, 
dass Studierende, die im Herbst des Studienbeginns maturiert haben, eine 
geringere Abbruchwahrscheinlichkeit ohne Leistung haben als Immatriku- 
lierte, die zum Standard-Termin die Matura absolviert haben. Allerdings 
haben — wie erwähnt - fast alle Studierenden dieser Gruppe in der vierten 
oder fünften Woche immatrikuliert, und die Regressionskoeffizienten dieser 
beiden Variablen sind positiv und vom Betrag deutlich größer als der Koef- 
fizient von “lagl”. Ohne Einbeziehung der Immatrikulationswochen ist der 
Koeffizient von “lagl” positiv (mit p < 0.0001). 


e “sex”: Erwähnenswert ist weiters der negative Koeffizient der Variablen Ge- 
schlecht (p < 0.0001), der besagt, dass Studentinnen eher ohne eine einzige 
Leistung abbrechen als Studenten (unter gleicher Ausprägung aller anderen 
einbezogenen Kovariablen). 


e “hak, htl, hla, other”: Der HTL-Abschluss zeigt einen (positiven) Koef- 
fizienten mit p-Wert kleiner als 0.0001; HTL-Absolventen haben somit zu 
Studienbeginn eine höhere Abbruchwahrscheinlichkeit als AHS-Maturanten. 
HAK-Absolventen hingegen zeigen eine geringere Abbruchwahrscheinlich- 
keit ohne positives Prüfungsergebnis. 


e “woche2” bis “woche5” Die Koeffizienten der Immatrikulationswochen sind 
alle - wie erwartet — stark positiv. Umso später immatrikuliert wird, desto 
höher ist die Wahrscheinlichkeit, ohne eine einzige positive Leistung das 
Studium an der Wirtschaftsuniversität abzubrechen. 


Zur Überprüfung von Unterschieden zwischen den Geschlechtern wurden wie- 
der Interaktionsvariablen des Geschlechts mit den restlichen Variablen imple- 
mentiert bzw. getrennte Analysen durchgeführt. Dabei konnten keine bedeu- 
tenden Differenzen zwischen den Geschlechtern festgestellt werden. Auch an- 
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dere erwähnenswerte Wechselwirkungen zwischen den Variablen konnten nicht 
beobachtet werden. 


Bei Einbeziehen von binären Variablen für die Jahrgänge zeigt der Jahrgang 
1993 eine geringere Wahrscheinlichkeit für einen Studienabbruch ohne positi- 
ves Prüfungsergebnis im Vergleich mit den anderen Jahrgängen (p < 0.0001). 
Die restlichen Variablen zeigen sich nach Einbeziehen der binären Variablen 
praktisch unverändert. Ein Vergleich zwischen den Jahrgängen zeigt für den 
Großteil der Variablen (wie “matalt1”, “lagl” und “woche2-woche5”) in der 
Interpretation kaum Unterschiede. 


Als Alternative zur Modellierung des frühen Studienabbruchs auf Basis der 
Stammdaten aus der Hörerevidenz können Studienabbrüche, die 


e mit maximal zwei erbrachten positiven Leistungen, oder 


e in den ersten drei Semestern (entsprechend Definition (b) aus Abschnitt 
10.1) erfolgt sind, 


analysiert werden. Entsprechende Analysen zeigen kaum Unterschiede in der 
Interpretation der einbezogenen Variablen. 


Modelle auf Basis von Daten der Stichproben-Population 


Im ersten Schritt wurde für Vergleichszwecke auf Basis der Variablen aus der 
Hörerevidenz das gleiche logistische Modell auf die Stichprobe und auf die 
gesamte Population der Jahrgänge 1990 und 1993 angewandt. Die Ergebnisse 
stimmen in Richtung und Größenordnung (und damit in der Interpretation) 
recht gut mit den Parameterschätzern aus Tabelle 13.1 überein. Tabelle 13.2 
zeigt die Ergebnisse für die Stichproben-Population. 


Danach wurden zur Analyse der Wahrscheinlichkeit des Studienabbruchs ohne 
positive Leistung ergänzend die in der Befragung erhobenen Variablen Schulno- 
ten aus Mathematik und Englisch sowie die Berufstätigkeit im ersten Semester 
in das logistische Regressionsmodell aufgenommen. 


Nach schrittweiser Reduktion der Variablen aus der Hörerevidenz und nach 
Einbeziehen der ergänzenden Variablen aus der Befragung analog zum Ab- 
schnitt 12.3 erhält man die Tabelle 13.3. 


Die Koeffizienten der Variablen aus der Hörerevidenz zeigen sich nach Einbezie- 
hen der ergänzenden Variablen ziemlich unverändert. Die Schul- Abschlussnoten 
beeinflussen den Studienabbruch ohne positive Leistung nicht (p > 0.25, wenn 
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Tabelle 13.2: Parameterschätzer eines logistischen Regressionsmodells für den 
Studienabbruch ohne positive Leistung auf Basis der Stichproben-Population 


Response Profile 


Ordered Total 
Value pi Frequency 

1 0 115 

2 1 588 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 83.3701 13 <.0001 
Score 91.0970 13 <.0001 
Wald 73.5043 13 <.0001 


Analysis of Maximum Likelihood Estimates 


Standard Wald 
Parameter DF Estinate Error Chi-Square Pr > ChiSq 
Intercept 1 -2.5014 0.2540 96.9591 <.0001 
matalti 1 1.0354 0.2555 16.4231 <.0001¥*** 
lagi 1 -0.9589 0.5307 3.2650 0.0708* 
lag2 1 -0.5842 0.8262 0.4999 0.4795 
lag4 1 0.9270 0.3131 8.7658 0.0031** 
sex 1 -0.3648 0.2458 2.2024 0.1378 
hak 1 -0.1235 0.2821 0.1917 0.6615 
htl 1 0.2185 0.3011 0.5265 0.4681 
hla 1 0.7280 0.4370 2.7759 0.0957* 
other 1 0.2997 0.6440 0.2165 0.6417 
woche2 1 0.9207 0.2789 10.8992 0.0010*** 
woche3 1 1.1903 0.3381 12.3912 0.0004*** 
woche4 1 1.9058 0.4242 20.1793 <.0001*** 
woche5 1 1.5321 0.4256 12.9583 0.0003*** 


*p<0.1; **p<0.05; ***p<0.01 


auch die Richtung wie erwartet ist). Etwas iiberraschend sind die Richtungen 
der Kategorien “geringfügig und teilweise beschäftigt im ersten Semester”, die 
angeben, dass Studierende aus diesen Kategorien eine geringere Wahrschein- 
lichkeit für den Studienabbruch ohne Leistung haben als Studierende, die im 
ersten Semester nicht berufstätig waren; hierbei ist jedoch zu beachten, dass 
die p-Werte beider Kategorien größer als 0.15 sind. Die Berufstätigkeit mit 
einem Wochenstundenausmaß von mindestens 30 Stunden erhöht hingegen die 
Wahrscheinlichkeit eines frühen Studienabbruchs (p < 0.01). 


Der Studienabbruch ohne Leistung hängt meist mit Unschlüssigkeit, mangeln- 
der Zielstrebigkeit, enttäuschten Erwartungen, dem Beginn des Studiums als 
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Tabelle 13.3: Parameterschätzer eines logistischen Regressionsmodells für 
den Studienabbruch ohne positive Leistung unter Berücksichtigung von 
ergänzenden Variablen aus der Befragung 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 98.4333 15 <.0001 
Score 105.0342 15 <.0001 
Wald 82.1300 15 <.0001 


Analysis of Maximum Likelihood Estimates 


Standard Wald 
Parameter DF Estimate Error Chi-Square Pr > ChiSq 
Intercept 1 -2.5546 0.2880 78.6942 <.0001 
matalti 1 0.9460 0.2582 13.4236 0.0002**x* 
lagi2 1 -0.7352 0.4703 2.4436 0.1180 
lag4 1 0.7736 0.3257 5.6414 0.0175** 
sex 1 -0.4135 0.2459 2.8276 0.0927* 
hak 1 -0.3121 0.2711 1.3247 0.2498 
hla 1 0.8517 0.4333 3.8637 0.0493** 
woche2 1 0.8265 0.2839 8.4783 0.0036*** 
woche3 1 1.1913 0.3411 12.2000 0.0005*«* 
woche4 1 1.6332 0.4343 14.1441 0.0002*** 
woche5 1 1.2555 0.4401 8.1375 0.0043 % 
mathe34 1 0.2507 0.2342 1.1462 0.2843 
englisch34 1 0.1574 0.2350 0.4487 0.5030 
jobi 1 -0.3657 0.4696 0.6066 0.4361 
job2 1 -0.5240 0.3690 2.0173 0.1555 
job3 1 0.8321 0.2858 8.4789 0.0036**« 


*p<0.1; **p<0.05; ***p<0.01 


Uberbriickung etc. zusammen — Variablen, die schwierig zu messen sind. Ta- 
belle 11.6 aus Abschnitt 11.1 zeigt, dass etwa die Hälfte der Studienabbre- 
cher ohne Leistung zu Studienbeginn nicht sicher waren, ob sie das Studi- 
um auch abschließen wollen. Der Immatrikulationsbeginn kann als Hilfsvaria- 
ble für Unschlüssigkeit bzw. mangelnde Zielstrebigkeit interpretiert werden. 
Die negativen Koeffizienten der beiden Kategorien ” geringfügig und teilwei- 
se beschäftigt im ersten Semester” (mit p-Werten größer als 0.15) lassen ver- 
muten, dass die Belastung einer beruflichen Tätigkeit unter 30 Stunden zu- 
meist nicht der Grund für den frühen Studienabbruch ist, eher finden sich 
Frühabbrecher unter den (noch unentschlossenen) Nicht-Berufstätigen oder 
den Vollzeit-Berufstätigen. 
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13.3 Analyse der Studienabbruchrate 


Studienabbruchrate: Effekte in Abhängigkeit von Stamm- 
und Prüfungsdaten aus der Hörerevidenz 


Die Analyse des Studienabbruch-Risikos von Studierenden, die mindestens ei- 
ne positive Leistung an der Wirtschaftsuniversität erbracht haben, erfolgte mit 
Hilfe des übergangsspezifischen semiparametrischen Modells von Cox. Als Stu- 
diendauer bis zum Studienabbruch wurde zur Analyse der in der Hörerevidenz 
verfügbaren Stamm- und Prüfungsdaten die Definition (b) - die Dauer bis 
zum Studienabbruch beträgt von Immatrikulierten, die an der Wirtschafts- 
universität keine einzige Leistung erbracht haben, ein Semester; bei anderen 
Studienabbrechern entspricht sie der Zeit (in Monaten) zwischen Studienbe- 
ginn und dem Datum der letzten Leistung plus ein Semester - herangezogen 
(vgl. Abschnitt 10.1). Studierende, die zum Stichtag das Studium bereits ab- 
geschlossen haben bzw. noch studieren, gehen als rechts-zensierte Fälle in das 
Modell ein. 


Tabelle 13.4 zeigt die Ergebnisse der Analyse der (inländischen) Immatrikulati- 
onsjahrgänge der Wintersemester 1989 bis 1993 unter Verwendung der Stamm- 
daten aus der Hörerevidenz und Implementierung der Variablen analog zu den 
vorangegangenen Abschnitten. Die Überprüfung der funktionalen Form der 
kontinuierlichen Variablen (“matalt”, “lag”) zeigte, dass die gewählten Ka- 
tegorien auch in dem übergangsspezifischen Modell für den Studienabbruch 
passend sind. Das Modell könnte wieder durch Zusammenfassung bzw. Redu- 
zierung von Variablen kompakter angeschrieben werden. Bedeutende Interak- 
tionseffekte konnten nicht beobachtet werden. 


Die Ergebnisse liefern ein ähnliches Bild wie für den Studienabbruch ohne po- 
sitive Leistung; siehe Tabelle 13.1. Beispielsweise weisen Immatrikulierte, die 
bei der Matura älter als 20 Jahre waren, (zu jedem Zeitpunkt t > 6) eine 
um 67% höhere Studienabbruchrate als die Referenzkategorie auf. Die größten 
Unterschiede ergeben sich bei den Schultypen; nur HTL-Maturanten zeigen in 
Tabelle 13.4 eine höhere Studienabbruchrate als AHS-Maturanten (Referenz- 
kategorie; p < 0.0001). Mit Hilfe von Interaktionsvariablen einzelner Variablen 
mit der Zeit wurde ergänzend untersucht, ob der Einfluss der einbezogenen 
Variablen mit der Zeit variiert. Es traten jedoch keine signifikanten Effekte 
auf. 


Als Alternative wurde das Studienabbruch-Risiko von Immatrikulierten, die 
nach Definition (b) mindestens drei Semester an der Wirtschaftsuniversität 
studiert haben, analysiert. Dieses Modell liefert unter Einbeziehung der glei- 
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Tabelle 13.4: Analyse der Studienabbruchrate auf Basis der Stammdaten aus 
der Hörerevidenz (Jahrgänge 1989 bis 1993) 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
7288 2562 4726 64.85 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 369 . 2973 14 <.0001 
Score 446.1224 14 <.0001 
Wald 430.0429 14 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 

Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 0.51397 0.05507 87.1073 <.0001 1.672*** 
lagi 1 -0.20302 0.10551 3.7025 0.0543 0.816* 
lag2 1 0.22561 0.11880 3.6068 0.0575 1.253* 
lag3 1 0.06241 0.05912 1.1145 0.2911 1.064 
lag4 1 0.63791 0.06411 99.0020 <.0001 1.893 * 
sex 1 -0.12402 0.04352 8.1198 0.0044 0. 8834%#* 
hak 1 -0.0009817 0.04895 0.0004 0.9840 0.999 
htl 1 0.23540 0.05777 16.6053 <.0001 1.265*** 
hla 1 0.14411 0.09929 2.1064 0.1467 1.155 
other 1 -0.07172 0.11745 0.3729 0.5414 0.931 
woche2 1 0.19917 0.04980 15.9962 <.0001 1.220*** 
woche3 1 0.34363 0.06744 25.9663 <.0001 1.410*** 
woche4 1 0.52990 0.09739 29.6041 <.0001 1.699%#* 
wocheS 1 0.57568 0.09361 37.8161 <.0001 1.778*** 


mE mn ee see we ee ee ee eee eee ee Se SS Se we i we ew we ew ee we eee ee a 


*p<0.1; **p<0.05; ***p<0.01 


chen Variablen ähnliche Ergebnisse. Bezüglich der einbezogenen Variablen aus 
der Hörerevidenz unterscheiden sich somit sehr frühe Studienabbrecher nicht 
wesentlich von Studienabbrechern, die schon einige Leistungen an der Wirt- 
schaftsuniversität erbracht haben. 


In einem weiteren Schritt wurde untersucht, inwiefern sich die Leistungen des 
ersten Studienjahrs auf das Studienabbruch-Risiko auswirken. Analog zum vor- 
angegangenen Kapitel wurden die Variablen “gesposjl1” und “vpj1l” in das se- 
miparametrische Modell von Cox aufgenommen. Der Datensatz ist gegenüber 
dem vorangegangenen Modell um jene (6%) Studierenden verringert worden, 
die zwar bis zum Stichtag mindestens eine positive Leistung abgelegt aber nach 
Definition (b) bis zum Studienabbruch weniger als zwei Semester an der Wirt- 
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schaftsuniversität verbracht haben. Die Überprüfung der funktionalen Form 
von “gesposj1” auf Basis der Stammdaten und der Variablen “vpjl” zeigt, 
dass die lineare Funktion bis zur zehnten Prüfung passend ist. Ab der zehnten 
Prüfung ist der Abwärtstrend wie erwartet nicht mehr zu beobachten (siehe 
Abbildung 13.1). 


M-Residuen 


gespos}1 


Abbildung 13.1: Plot der (geglätteten) Martingal-Residuen gegen die Variable 
“gesposj1” im übergangsspezifischen Cox-Modell für den Studienabbruch 


Tabelle 13.5 zeigt das entsprechende Modell nach Einbeziehung der beiden 
Prüfungsvariablen und Reduzierung bzw. Zusammenfassung von Kategorien 
von Variablen. 


Nach Einbeziehen der Prüfungsdaten verlieren wie erwartet die Immatrikula- 
tionswochen an Einfluss. Die Variable “spaet” fasst die Kategorien “woche4” 
und “woche5” zusammen. Die restlichen Variablen der Hörerevidenz wie das 
Alter bei der Matura, das Geschlecht und der HTL-Abschluss zeigen einen 
ähnlichen Einfluss wie vor der Einbeziehung der Prüfungsdaten. Ähnlich wie 
bei der Analyse der Studienabschlussrate verändert die Variable “hak” ihre 
Interpretation nach Einbeziehung der Prüfungsvariablen - ein HAK-Abschluss 
erhöht unter Berücksichtigung der Prüfungsvariablen die Studienabbruchrate. 
Die Erklärung hierfür ist wieder in der (für HAK-Absolventen) höheren Anzahl 
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Tabelle 13.5: Analyse der Studienabbruchrate auf Basis der Stamm- und 
Prüfungsdaten aus der Hörerevidenz 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
7138 2412 4726 66.21 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 1421.1301 9 <.0001 
Score 1530.3080 9 <.0001 
Wald 1354.5621 9 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 0.37127 0.05496 45.6326 <.0001 1.450%* 
lag3 1 0.22674 0.06052 14.0390 0.0002 1.255**% 
lag4 1 0.55961 0.06393 76.6135 <.0001 1.750*** 
sex 1 -0.19229 0.04327 19.7437 <.0001 0.825**x 
hak 1 0.22711 0.04933 21.1994 <.0001 1.255% 
htl 1 0.32147 0.05740 31.3715 <.0001 1.379%» 
spaet 1 -0.20452 0.06405 10.1967 0.0014 0.815**x* 
gesposji1 i -0.20062 0.00649 954.9575 <.0001 0.818*** 
vpji 1 -0.89051 0.18641 22.8208 <.0001 0.410*** 


*p<0.1; **p<0.05; ***p<0.01 


der Priifungserfolge (exklusive Ergänzungsprüfungen) im ersten Studienjahr zu 
suchen. 


Die Leistungen des ersten Studienjahrs zeigen den erwarteten Effekt auf das 
Studienabbruch-Risiko: 


e “gesposj1”: Jede (bis zur zehnten) zusätzlich positiv abgelegte Prüfung im 
ersten Studienjahr verringert (zu jedem Zeitpunkt t > 12) das Studienab- 
bruch-Risiko um 18% (bei gleicher Ausprägung aller anderen Variablen). 


e “vpjl”: das Ablegen mindestens einer Vor- bzw. Teildiplomprüfung im er- 
sten Studienjahr verringert das Studienabbruch-Risiko massiv (um etwa 


59%). 
Der Notendurchschnitt zeigt keinen zusätzlichen Effekt. 
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Studienabbruchrate: Effekte in Abhängigkeit von Daten 
der Stichproben-Population 


Ergänzend wurden wieder die aus der Befragung erhaltenen Daten der Jahrgän- 
ge 1990 und 1993 für die Analyse der Studienabbruchrate von Studierenden, 
die mindestens eine positive Leistung an der Wirtschaftsuniversität erbracht 
haben, herangezogen. 


Zur Analyse der Befragungsdaten wurde die Definition (c) - die Studiendauer 
ist die Zeit zwischen Studienbeginn und dem auf Befragung angegebenen Da- 
tum des Studienabschlusses bzw. Studienabbruchs - verwendet. Es wurde auch 
überprüft, dass die Verwendung der Definition (b) für den Studienabbruch sehr 
ähnliche Ergebnisse liefert. 


Nach Einbeziehung der Schul-Abschlussnoten und der Berufstätigkeit im ersten 
Semester (analog zu den vorangegangenen Abschnitten) sowie Reduzierung von 
Variablen aus der Hörerevidenz erhält man die Tabelle 13.6. 


Bei der Interpretation der Tabelle 13.6 ist zu beachten, dass die Immatri- 
kulationswochen bei der Reduzierung der Variablen aufgrund des geringen 
Erklärungsbeitrages nicht in das (finale) Modell aufgenommen worden sind. 
Die Variablen aus der Hörerevidenz zeigen nach Einbeziehung der (zeitun- 
abhängigen) Variablen aus der Befragung die erwartete Richtung. Die Varia- 
blen aus der Befragung können wie folgt interpretiert werden: 


e “mathe34”, “englisch34”: Schlechtere Abschlussnoten im Mathematik erhö- 
hen das Studienabbruch-Risiko (bei mindestens einer erbrachten positiven 
Prüfungsleistung), während die Abschlussnoten aus Englisch keinen Effekt 
zeigen. 


e “job12, job3“: Studierende, die im ersten Semester mindestens fünf und we- 
niger als 30 Wochenstunden berufstätig waren (“job12” ist die Zusammen- 
fassung der Kategorien “geringfügig” und “teilweise beschäftigt“), haben zu 
jedem Zeitpunkt (t > 6) eine um 50% höherer Studienabbruchrate als Nicht- 
Berufstätige. Vollzeit-Berufstätige haben noch ein höheres Studienabbruch- 
Risiko. Diese Interpretation entspricht somit den deskriptiven Analyse aus 
Abschnitt 11.2. 


Bezieht man in einem weiteren Schritt analog zu Abschnitt 12.3 die zeitabhän- 
gigen Variablen durchschnittliche Berufstätigkeit seit Studienbeginn (“empav” ) 
sowie die Anzahl der für eine zweite Ausbildung (“cumbildg”) bzw. für Kin- 
derbetreuung (“cumkind”) investierten Semester (zu jedem Ereigniszeitpunkt) 
in das semiparametrische Modell ein, erhält man die Tabelle 13.7. 
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Tabelle 13.6: Parameterschätzer des semiparametrischen Cox-Modells für den 
Studienabbruch unter Berücksichtigung von ergänzenden Variablen aus der 
Befragung 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
588 152 436 74.15 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 41.3484 7 <.0001 
Score 45.3436 7 <.0001 
Wald 43.4358 7 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 0.28477 0.20565 1.9176 0.1661 1.329 
sex 1 -0.55842 0.18066 9.5537 0.0020 0.572*** 
htl 1 0.70494 0.20805 11.4810 0.0007 2.024%#* 
mathe34 1 0.33991 0.16800 4.0934 0.0431 1.405%* 
englisch34 1 -0.02090 0.17059 0.0150 0.9025 0.979 
jobi2 1 0.40359 0.18571 4.7230 0.0298 1.497%* 
job3 1 0.85096 0.22230 14.6531 0.0001 2. 342%** 


*p<O.1; **p<0.05; ***p<0.01 


Die Parameterschätzer der zeitkonstanten Variablen bleiben nach Einbeziehen 
der zeitabhängigen Variablen beinahe unverändert. Von den zeitveränderlichen 
Variablen ist es vor allem die durchschnittliche Berufsintensität, die einen mas- 
siven Einfluss auf die Studienabbruchrate zeigt. Jede Stunde, die durchschnitt- 
lich mehr seit Studienbeginn gearbeitet worden ist, bedeutet ein um etwa 3% 
höheres Studienabbruch-Risiko. Mit der Anzahl der Semester, die in eine zweite 
Ausbildung investiert werden, nimmt die Studienabbruchrate ab. Die Variable 
“cumkind” zeigt keinen Einfluss auf die Hazardrate für den Studienabbruch. 
Allerdings zeigt Tabelle 11.21, dass nur sehr wenige Studienabbrecher in der 
Befragung angegeben haben, während ihrer WU-Studienzeit ein Kind betreut 
zu haben. 
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Tabelle 13.7: Parameterschätzer des semiparametrischen Cox-Modells für 
den Studienabbruch unter Berücksichtigung von zeitabhängigen Variablen 


(Stichproben-Population) 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 65.5162 9 <.0001 
Score 69.1857 9 <.0001 
Wald 65.1699 9 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
matalti 1 0.35981 0.20906 2.9622 0.0852 1.433% 
sex 1 -0 . 68803 0.19931 11.9173 0.0006 0.503 *#* 
hak 1 -0.38979 0.23306 2.7972 0.0944 0.677% 
htl 1 0.65263 0.23946 7.4277 0.0064 1.921*** 
hlaother 1 0.37468 0.31623 1.4038 0.2361 1.455 
mathe34 1 0.39870 0.17403 5.2485 0.0220 1.490** 
empav 1 0.03147 0.00624 25.4656 <.0001 1.032**x* 
cumbildg 1 -0.20767 0.12073 2.9585 0.0854 0.812x* 
cumkind 1 0.04160 0.10838 0.1473 0.7011 1.042 


Å- mn a e a m m cee mn in men et ee ee am mr dp an mu ee ee ee Hp ame ui due AED CD and ee am aim Mus ee a ne et min Ai Aut OAD ee ee ee 0 ee i Gum ame an man ee mu 


*p<0.1; **p<0.05; ***p<0.01 
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Kapitel 14 


Erweiterung der Analysen 


Die letzten beiden Kapitel zeigten ein breites Spektrum der Anwendungsmög- 
lichkeiten der Ereignisanalyse für die Analyse der Studiendauer sowie des Stu- 
dienabbruchs. In diesem Kapitel wird nach einer Sensitivitätsanalyse betref- 
fend der Modellannahme eines bedingt unabhängigen Zensierungsmechanis- 
mus auf weitere Analysemöglichkeiten der vorliegenden Daten eingegangen. 
So können etwa je nach Fragestellung einzelne Studienphasen (Studienein- 
gangsphase, erster und zweiter Studienabschnitt) getrennt voneinander (bzw. 
in Abhängigkeit zueinander) analysiert werden oder auch (insbesondere im Fal- 
le von Studienabbruchzeiten, die zumeist nicht exakt gemessen werden können) 
diskrete Modelle zur Anwendung kommen. 


14.1 Sensitivitätsanalyse 


Die Analysen der vorangegangenen Kapiteln sind unter der Annahme eines 
bedingt unabhängigen Zensierungsmechanismus erfolgt, das heißt, es wurde 
vorausgesetzt, dass die Dauer bis zum Studienabschluss (unter den einbezo- 
genen Variablen) bedingt unabhängig von der Dauer bis zum Studienabbruch 
ist. Diese Annahme ist ausführlich in den Abschnitten 3.2 und 5.2 diskutiert 
worden. 


Im Abschnitt 7.1 ist eine Möglichkeit vorgestellt worden, welche die Robust- 
heit der Regressionskoeffizienten gegenüber Änderungen des Zensierungsmu- 
sters analysieren hilft. In Anlehnung an die dort beschriebene Methode wird 
zur Analyse der Robustheit der Parameterschätzer im parametrischen log- 
logistischen Modell für den Studienabschluss angenommen, dass alle Studi- 
enabbrecher zum Ende der Studie noch studieren; ihre Zensierungszeit wird 
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somit gleich der Zeitdauer der Studie gesetzt. Tabelle 14.1 zeigt das Ergebnis 
basierend auf den Variablen aus Tabelle 12.7. 


Tabelle 14.1: Sensitivitätsanalyse des log-logistischen Modells für die Reststu- 
diendauer mit modifizierten Studienabbruch-Zeiten (Jahrgänge 1989 bis 1993) 


Model Information 


Number of Observations 7435 
Noncensored Values 3034 
Right Censored Values 4401 
Name of Distribution LLogistic 
Log Likelihood -5671.55874 


Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 

Parameter DF Estimate Error Limits Square Pr > ChiSq 
Intercept 1 4.5935 0.1013 4.3949 4.7921 2054.31 <.0001 
matalti 1 0.2380 0.0443 0.1511 0.3248 28.84 <.0001%**%* 
lagi 1 0.0270 0.0722 -0.1144 0.1684 0.14 0.7083 
sex 1 0.0820 0.0350 0.0134 0.1506 5.48 0.0192** 
sex*ahs 1 0.0598 0.0454 -0.0292 0.1487 1.74 0.1877 
hak 1 0.2270 0.0328 0.1626 0.2914 47.75 <.0001*** 
htl 1 0.2079 0.0466 0.1165 0.2993 19.87 <.0001*** 
gesposj1 1 -0.1518 0.0044 -0.1604 -0.1431 1182.01 <.0001*** 
vpji 1 -0.4038 0.0423 -0.4866 -0.3210 91.30 <.0001*** 
average 1 0.1423 0.0219 0.0994 0.1851 42.33 <.0001*** 
Scale 1 0.4658 0.0072 0.4520 0.4801 


*p<0.1; **p<0.05; ***p<0.01 


Mit dieser Modellierung werden nun alle Studierenden, die in den ersten acht 
Semestern des Studiums abgebrochen und daher zuvor nicht in das Modell 
einbezogen worden sind, berücksichtigt. Daher erhöht sich auch die Zahl der 
rechts-zensierten Fälle von 2432 auf 4401. 


Die Konfidenzintervalle der Regressionskoeffizienten der beiden Modelle über- 
lappen für alle einbezogenen Kovariablen. Zumeist wurden die Effekte der 
Variablen etwas stärker, wie etwa der Einfluss des Alters bei der Matura 
(“matalt”) und der Anzahl der positiven Leistungen im ersten Studienjahr 
(“gesposj1” ). Beide Variablen sind auch Einflussgrößen, die das Studienabbruch- 
Risiko erhöhen, und daher konnte erwartet werden, dass in dem in Tabelle 14.1 
angeführten Extremfall der Einfluss etwas verstärkt wird. Im Allgemeinen kann 
jedoch geschlossen werden, dass die Regressionskoeffizienten der einbezogenen 
Variablen ziemlich robust gegenüber Änderungen des Zensierungsmechanis- 
mus sind. Semiparametrische Modellierungen liefern vergleichbare Aussagen. 
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Auffallend ist jeweils der bedeutende Unterschied der Parameter “Intercept” 
(Bo) und “Scale” (a) zwischen den beiden Modellen. Diese beiden Parame- 
terschätzer, die die Gestalt der Verteilung bestimmen, hängen weitaus mehr 
von den Zensierungszeiten ab. Obwohl sich die Regressionskoeffizienten der 
einzelnen Kovariablen nur leicht verändert zeigen, hat sich der geschätzte Me- 
dian der (übergangsspezifischen) Reststudiendauer der einzelnen Studenten- 
gruppen durch die veränderte Modellierung der Abbruchzeiten wie erwartet 
stark erhöht. 


14.2 Mehr-Episoden-Modelle 


In Erweiterung der Analysen des Kapitels 12 kann das Studium in mehrere 
Studienphasen geteilt werden. Dabei kann beispielsweise 


e die Gesamtstudiendauer in Abhängigkeit der Dauer bis zur ersten Vor- bzw. 
Teildiplomprüfung (und anderer Kovariablen), 


e die Gesamtstudiendauer in Abhängigkeit der Dauer des ersten Studienab- 
schnitts, 


e die Dauer des zweiten Studienabschnitts in Abhängigkeit der Dauer des 
ersten Studienabschnitts, oder auch 


e die Dauer des ersten Studienabschnitts in Abhängigkeit der vorhandenen 
Daten aus der Hörerevidenz 


modelliert werden. In den ersten beiden Fällen wird die Gesamtstudiendauer 
in Abhängigkeit des Eintreffens eines davor liegenden Ereignisses (der ersten 
Vor- bzw. Teildiplomprüfung, bzw. des ersten Studienabschnitts) analysiert. 
Es werden daher nur jene Studierenden in das Modell einbezogen, die die- 
ses Ereignis bereits gehabt haben, das heißt, es handelt es um ein Modell 
mit links abgeschnittenen Daten (siehe Abschnitt 3.2). Von den einbezogenen 
Studierenden ist bekannt, dass sie bis zum Eintreffen dieses Zwischenereignis- 
ses nicht dem “Risiko” des Studienabschlusses ausgesetzt waren. Tabelle 14.2 
zeigt als Beispiel die Analyse der Gesamtstudiendauer in Abhängigkeit der 
Dauer des ersten Studienabschnitts und der zeitabhängigen Variablen “Be- 
rufstätigkeit”, “zweite Ausbildung” und “Kinderbetreuung” im zweiten Stu- 
dienabschnitt (analog zu den beiden vorangegangenen Kapiteln). Mit diesem 
Modell wird einerseits eine Bestätigung gesucht, dass die Dauer des ersten 
Studienabschnitts einen starken Einfluss auf die Studienabschlussrate hat, da 
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zu erwarten ist, dass die beiden Zeitdauern stark positiv korrelieren. Anderer- 
seits wird der Frage nachgegangen, inwiefern die einbezogenen zeitabhängigen 
Variablen die Dauer des zweiten Studienabschnitts (und damit die Gesamtstu- 
diendauer) beeinflussen. 


Tabelle 14.2: Analyse des zweiten Studienabschnitts anhand von links abge- 
schnittenen Daten (Stichproben-Population) 


Summary of the Number of Event and Censored Values 


Percent 
Total Event Censored Censored 
356 247 109 30.62 


Testing Global Null Hypothesis: BETA=0 


Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 112.2161 4 <.0001 
Score 106.2667 4 <.0001 
Wald 100.3504 4 <.0001 


Analysis of Maximum Likelihood Estimates 


Parameter Standard Hazard 
Variable DF Estimate Error Chi-Square Pr > ChiSq Ratio 
durib 1 -0.05222 0.00584 79.8697 <.0001 0.949x xx 
empav 1 -0.01877 0.00644 8.5005 0.0036 0.981*** 
cumbildg 1 -0.03271 0.06320 0.2679 0.6047 0.968 
cumkind 1 -0.15236 0.06201 6.0367 0.0140 0.859+** 


*p<0.1; **p<0.05; ***p<0.01 


Die Ergebnisse zeigen, dass die Dauer des ersten Studienabschnitts einen mas- 
siven Einfluss (in erwarteter Richtung) auf die Gesamtstudiendauer hat. Un- 
ter Konstanthaltung der Studiendauer des ersten Studienabschnitts zeigen die 
durchschnittliche Berufstätigkeit und die Anzahl der Semester, in denen auch 
Kinder betreut wurden, einen deutlichen Einfluss (in erwarteter Richtung) auf 
die Studienabschlussrate. 


Auch für die Analyse des Studienabbruchs sind ähnliche Mehr-Episoden-Model- 
le denkbar - etwa das Risiko des Studienabbruchs im zweiten Studienabschnitt 
in Abhängigkeit von erklärenden Variablen. 


14.3 Diskrete Modelle 


Die Dauer bis zum Studienabbruch kann über Definition (b) - die Dauer bis 
zum Studienabbruch beträgt von Immatrikulierten, die an der Wirtschaftsuni- 
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versität keine einzige Leistung erbracht haben, ein Semester; bei anderen Studi- 
enabbrechern entspricht sie der Zeit (in Monaten) zwischen Studienbeginn und 
dem Datum der letzten Leistung plus ein Semester - nur approximiert werden. 
Als Alternative zu den kontinuierlichen Modellen aus Kapitel 13 können dis- 
krete Modelle verwendet werden, in den die Zeitdauer bis zum Studienabbruch 
(bzw. Studienabschluss) in Semestern angegeben wird. Tabelle 14.3 zeigt die 
Analyse des Studienabbruchs mit Hilfe eines gruppierten Cox-Modells (siehe 
Abschnitt 8) auf Basis der Stamm- und Prüfungsdaten der Hörerevidenz. 


Tabelle 14.3: Analyse der Studienabbruch-Wahrscheinlichkeit auf Basis des 
gruppierten Cox-Modells 


Analysis of Parameter Estimates 


Standard 95% Confidence Chi- 

Parameter DF Estimate Error Limits Square Pr > ChiSq 

Intercept 1 -2.7137 0.0459 -2.8037 -2.6238 3498.00 <.0001 

matalti 1 0.3703 0.0550 0.2626 0.4780 45.38 <.0001*** 
lag3 1 0.2091 0.0605 0.0906 0.3276 11.96 0.0005*** 
lag4 1 0.5329 0.0639 0.4077 0.6581 69.61 <.0001*** 
gesch 1 -0.1758 0.0432 -0.2605 -0.0910 16.52 <.0001*** 
hak 1 0.2249 0.0493 0.1282 0.3215 20.80 <.0001¥*** 
htl 1 0.3134 0.0574 0.2008 0.4259 29.77 <.0001*** 
spaet 1 -0.1926 0.0640 -0.3182 -0.0671 9.05 0.0026*** 
gesposji 1 -0.1968 0.0065 -0.2095 -0.1842 925.88 <.0001#** 
vpji 1 -0.9039 0.1864 -1.2691 -0.5386 23.52 <.0001**« 


-= a a m a ee ee ee we we ee ww OO SS ee Se OO ee wee Oe ww am ew we ee ewe = 


*p<0.1; **p<0.05; ***p<0.01 


Die Ergebnisse sind praktisch ident zu den Ergebnissen aus Tabelle 13.5. Die 
Ergebnisse erweisen sich auch als robust gegenüber weiteren Alternativen für 
die Dauer bis zum Studienabbruch (bzw. Studienabschluss). Nimmt man etwa 
die Anzahl der insgesamt an der Wirtschaftsuniversität inskribierten Seme- 
ster als Studiendauer und definiert man den Studienabbruch entsprechend der 
Eintragung in der Hörerevidenz (siehe Abschnitt 10.1, Definition (A) für den 
Studienabbruch), so verändern sich die Parameterschätzer kaum. 


Werden nur zeitunabhängige Kovariablen in das Modell einbezogen, so sind die 
unterschiedlichen Rechenzeiten zwischen dem kontinuierlichen und dem diskre- 
ten Modell (auch bei größeren Datenmengen wie in Tabelle 14.3) kaum von 
Bedeutung. Zieht man allerdings auch zeitabhängige Kovariablen in das Modell 
ein, so ist die Rechenzeit für diskrete Modelle (vor allem bei größeren Daten- 
mengen und/oder mehreren zeitabhängigen Variablen) geringer. In diesem Fall 
muss der Nachteil des Informationsverlustes durch Diskretisierung von konti- 
nuierlichen Daten und der Vorteil einer geringeren Rechenzeit gegeneinander 
abgewogen werden. 


203 
Günther Sedlacek - 978-3-631-75405-4 
Downloaded from PubFactory at 01/11/2019 05:23:57AM 
via free access 


Kapitel 15 


Zusammenfassung und 
Diskussion der Ergebnisse 


Die empirischen Analysen der vorliegenden Arbeit setzen sich insbesondere 
mit der Bestimmung von Merkmalen, die einen Effekt auf die Studiendauer 
und das Risiko eines Studienabbruchs ausüben, und weniger mit Kennzah- 
len des Studiums zusammen. Dieses Kapitel fasst die wichtigsten Ergebnisse 
dieser empirischen Analysen zusammen und gibt im letzten Abschnitt Ideen, 
wie die erzielten Ergebnisse bzw. die in der Hörerevidenz vorhandene Daten 
zu Studierenden zukünftig in Entscheidungsprozessen eine Hilfestellung bieten 
können. 


15.1 Analyse der Studiendauer und der Ha- 
zardrate für den Studienabschluss 


e Eingangsvoraussetzungen in Bezug auf den schulischen Werdegang: 


- HAK-Absolventen haben eine kürzere Studiendauer als die Absolven- 
ten von anderen Schultypen (insbesondere als HTL- und männliche 
AHS-Absolventen) zu erwarten. Die Variable Schultyp korreliert mit 
den Leistungen des ersten Studienjahres. HAK-Absolventen absolvie- 
ren im ersten Studienjahr durchschnittlich zwei bis drei positive Lehr- 
veranstaltungsprüfungen mehr als die Absolventen anderer Schulty- 
pen. Dies lässt sich auch auf das Wegfallen der Ergänzungsprüfungen 
zurückführen. 


— Studierende, die bei Schulabschluss älter als 20 Jahre waren, haben 
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eine längere Studiendauer als andere. Dies lässt den Schluss zu, dass 
eine Verzögerung beim Schulabschluss auch auf eine Verzögerung im 
Studium hinweist. Angesichts der geringen Anzahl von Studierenden 
aus dieser Gruppe kommt dieser Variablen nicht so große Bedeutung 
zu. 


— Studierende, die die Matura zu einem Nachtermin absolviert haben, 
weisen eine längere Studiendauer auf als andere. Auch dies deutet dar- 
aufhin, dass sich schwächere Leistungen in der Schule (bzw. im Jahr 
der Matura) negativ auf die Studienleistungen auswirken. Weiters ist 
zu erwähnen, dass Studierende, die die Matura zum Nachtermin Ende 
September bzw. Anfang Oktober absolvieren, erst Ende der Imma- 
trikulationsfrist immatrikulieren können. Die späte Immatrikulation 
wiederum kann sich negativ auf die Studieneingangsphase auswirken. 


— Studierende, die die Schule in Mathematik und Englisch mit Eins oder 
Zwei abgeschlossen haben, zeigen eine geringere Studiendauer als an- 
dere. 

Insgesamt zeigen die einbezogenen Variablen einen erkennbaren Zu- 
sammenhang zwischen Schul- und Studienleistungen. 


e Zum Engagement für das Studium: 


— Je später innerhalb der Immatrikulationsfrist immatrikuliert wird, de- 
sto länger ist die zu erwartende Studiendauer. Der massive Einfluss 
dieser Variablen lässt sich dadurch erklären, dass 


- es meistens die Unentschlossenen (bzw. auf eine andere Chance 
Wartenden) sind, die am Ende der Immatrikulationszeit immatri- 
kulieren, und dass 

- eine späte Immatrikulation (schon während der Studienzeit) einen 
Startnachteil mit sich bringt. Studierende, die spät immatriku- 
lieren, erhalten manchmal keinen Lehrveranstaltungsplatz mehr, 
haben die ersten Lehrveranstaltungseinheiten schon versäumt und 
finden sich dann langsamer auf der Universität zurecht. 


Diesen Erklärungen entsprechend korreliert diese Variable stark mit 
den erbrachten Leistungen im ersten Studienjahr. 


— Je größer die Anzahl der Prüfungserfolge und je besser der Notendurch- 
schnitt im ersten Studienjahr umso geringer ist die Studiendauer. Dies 
zeigt, wie wichtig das erste Studienjahr (bzw. eine Studieneingangspha- 
se) für den weiteren Studienerfolg ist. Die einbezogenen Prüfungsvaria- 
blen zeigen den erwartet hohen prädiktiven Charakter für die Studi- 
endauer, daher eignen sie sich auch gut für frühe Prognosemodelle für 
die Studiendauer. 
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e Zum sozialen Umfeld: 


— Die Berufstätigkeit im ersten Semester zeigt, dass Studierende, die 
schon im ersten Semester mindestens 30 Stunden berufstätig sind, 
eine weitaus geringere Studienabschlussrate aufweisen. Weit aussage- 
kräftiger ist die zeitabhängige Variable Berufstätigkeit. Je höher die 
durchschnittliche (und auch die laufende) Berufsintensität seit Stu- 
dienbeginn umso länger ist die Studiendauer. Da das Berufsausmaß an 
der Wirtschaftsuniversität (wie in Abschnitt 11.2 gezeigt) relativ hoch 
ist, kommt dieser Variablen eine große Bedeutung zu. 


Berufstätige Studierende brauchen zwar je nach Berufsintensität länger 
für das Studium. In den meisten Fällen macht sich jedoch diese Studi- 
enverzögerung bezahlt, weil nach Information des Zentrums für Berufs- 
planung (an der Wirtschaftsuniversität Wien) Absolventen mit Berufs- 
erfahrung größere Chancen auf einen Job haben als Studierende, die 
in Mindestzeit studiert und keine (oder kaum) Berufserfahrung haben. 


— Je mehr Semester für alternative Ausbildungen (wie Doppelstudium, 
Lehrgang, etc.) und für Kinderbetreuung investiert wurden, desto höher 
ist die zu erwartende Studiendauer. 


Insgesamt kann zusammengefasst werden, dass die demographischen Variablen 
aus der Hörerevidenz allein keinen großen Einfluss auf die Studiendauer zei- 
gen. Prüfungsdaten des ersten Studienjahrs und die zusätzlich einbezogenen 
Variablen hingegen zeigen einen massiven Effekt auf die Studiendauer. 


15.2 Analyse der Studienabbruchrate 


Die deskriptiven Analysen aus Abschnitt 11.1 zeigen, dass ein Großteil der 
Studienabbrecher das Studium an der Wirtschaftsuniversität in einem sehr 
frühen Stadium abbrechen, viele davon überhaupt, ohne eine einzige (positive) 
Leistung erbracht zu haben; daher ist die Frage zu stellen, ob solche Stu- 
dienanfänger nicht eher als “Schnupperstudierende” denn als Studierende der 
Wirtschaftsuniversität zu klassifizieren sind. Im Lichte dieser Fakten sind auch 
Kennzahlen über Abbruchquoten an der Wirtschaftsuniversität zu beurteilen. 


In der vorliegenden Arbeit war es auch ein Ziel, zwischen frühen und späten 
Studienabbrüchen zu unterscheiden und unterschiedliche Einflussgrößen zu be- 
stimmen. Es hat sich gezeigt, dass diese Fragestellung mit dem vorhandenen 
Datenmaterial nur schwer zu beantworten ist. Zumeist zeigen die einbezogenen 
Variablen keinen großen Unterschied zwischen Studienabbrüchen ohne positive 
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Leistung (bzw. in den ersten Semestern) und späteren Studienabbrüchen. Am 
ehesten könnte noch die Berufstätigkeit erwähnt werden, die mit zunehmen- 
der Studiendauer eine größere Rolle spielt, wobei eine Vollzeit-Beschäftigung zu 
Studienbeginn auch einen massiven Einfluss auf einen frühen Studienabbruch 
zeigt. Auch die Schulnote aus Mathematik zeigt zu Beginn keinen Einfluss, bei 
späteren Studienabschlüssen hingegen wirken sich schlechtere Noten erhöhend 
auf das Studienabbruch-Risiko aus. Weiters zeigt Tabelle 11.8, dass die vorwie- 
gende Beschäftigung nach dem Studienabbruch zwischen frühen und späteren 
Studienabbrechern variiert. 


Ganz allgemein konnten die folgenden Einflussgrößen auf das Studienabbruch- 
Risiko identifiziert werden: 


e HTL-Absolventen weisen ein höheres Studienabbruch-Risiko als die Absol- 
venten der anderen Schultypen auf, HAK-Absolventen ein etwas geringeres. 


e Studierende, die bei Schulabschluss älter als 20 Jahre waren, haben eine 
höhere Abbruchwahrscheinlichkeit als andere. 


e Je später innerhalb der Immatrikulationsfrist immatrikuliert wird, desto 
höher wird das Studienabbruch-Risiko geschätzt. Diese Variable korreliert 
stark mit den erbrachten Leistungen im ersten Studienjahr. 


e Je größer die Anzahl der Prüfungserfolge im ersten Studienjahr, umso ge- 
ringer ist in den darauffolgenden Studienjahren das Studienabbruch-Risiko. 
Die beiden einbezogenen Variablen zeigen den erwartet starken Effekt auf 
die Wahrscheinlichkeit eines Studienabbruchs. 


e Je höher die durchschnittliche Berufsintensität umso größer ist das Studienab- 
bruch-Risiko. Auch die als zeitabhängige Variable modellierte Berufstätigkeit 
zeigt den erwartet hohen Effekt. 


e Ebenfalls erhöhend auf das Studienabbruch-Risiko wirkt sich die Betreuung 
von Kindern neben dem Studium aus. 


15.3 Ausblick 


In der vorliegenden Arbeit bildet die Anwendung der Ereignisanalyse auf Stu- 
dienverlaufsdaten von Immatrikulationjahrgängen den Schwerpunkt. Die Ver- 
fahren der Ereignisanalysen eignen sich, die Verteilung der Studiendauer und 
ihre Charakteristika wie die mediane Studiendauer zu schätzen. Durch das 
Einbeziehen von erklärenden Variablen kann darüber hinaus der Effekt von 
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bestimmten Merkmalen auf die Studiendauer und das Studienabbruch-Risiko 
quantifiziert werden. 


Die Modellierung von Studiendauer und Studienabbruch-Risiko unter Verwen- 
dung von Erklärungsfaktoren erlaubt es, schon in den ersten Semestern fun- 
dierte Aussagen über die Entwicklung eines Jahrgangs zu machen; die Modelle 
liefern Prognosen über die Studiendauer und Abbruchwahrscheinlichkeit von 
Teilpopulationen der Studierenden bis zu Individualprognosen. Solche Progno- 
sen sind unter anderem auch ein wichtiges Instrument zur frühen Beurteilung 
von Maßnahmen, die helfen sollen, die Studiendauer bzw. die Abbruchquote 
zu reduzieren. Manche Erklärungsfaktoren sind in den universitären Daten- 
beständen verfügbar und können daher für routinemäßige Analysen genützt 
werden, andere müssen aus anderen Quellen erhoben werden. 


Die in der vorliegenden Arbeit präsentierten Erklärungsmodelle können Teil 
eines umfassenden Systems zur Beschreibung des Studierverhaltens an der 
Wirtschaftsuniversität sein. Hackl und Sedlacek (2002) schlagen in ihrem For- 
schungsbericht vor, “einerseits ein Kennzahlensystem “Studierende und Studi- 
enfortschritte” zu führen, andererseits von Zeit zu Zeit die Erklärungsmodelle 
an neuere Daten anzupassen”. 


Das vorgeschlagene Kennzahlensystem umfasst Kennzahlen zu den Erstinskri- 
benten, den Studierenden, den Studienabbrechern und den Absolventen ei- 
nes Berichtsjahres. Alle Statistiken können auf Basis der universitären Da- 
tenbeständen routinemäßig ermittelt werden. Derartige Kennzahlen sind ein 
Instrument für die Bewertung der bestehenden Situation und die Wahl und 
Einschätzung von zu treffenden Maßnahmen. Sie sollen helfen, den Lehr- und 
Lernbetrieb an der Wirtschaftsuniversität zu verbessern. Sie sind für unter- 
schiedliche Personengruppen von Interesse: für die Studierenden, für die Leh- 
renden, für die für den Lehrbetrieb Verantwortlichen, für die Geldgeber. 
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Anhang A 


Schulformen 


01 Gymnasium 

02 Humanistisches Gymnasium 

03 Neusprachliches Gymnasium 

04 Realistisches Gymnasium 

05 Realgymnasium 

06 Naturwissenschaftliches Realgymnasium 

07 Mathematisches Realgymnasium 

08 Oberstufenrealgymnasium 

09 Wirtschaftskundliches Realgymnasium 

10 Realschule 

11 Frauenoberschule 

12 Aufbaugymnasium 

13 Aufbaurealgymnasium 

14 Aufbaumittelschule 

15 Gymnasium für Berufstätige 

16 Realgymnasium für Berufstätige 

17 Arbeitermittelschule 

18 Berufsreifeprüfung 

19 Höhere technische und gewerbliche Lehranstalt 
20 Handelsakademie 

21 Höhere Lehranstalt für wirtschaftliche Berufe 
22 Lehrerbildungsanstalt 

23 Höhere land- und forstwirtschaftliche Lehranstalt 
24 Studienberechtigungsprüfung 

25 Ausländische Reifeprüfung 

26 BA für Sozialpädagogik 

27 Externistenreifeprüfung 
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28 Bundesanstalt für Kindergartenpädagogik 

29 Akademie 

30 Inländische postsekundäre Bildungseinrichtung 
31 Ausländische postsekundäre Bildungseinrichtung 
98 Reifeprüfung nicht relevant 

99 Keine Reifeprüfung 
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Anhang B 
Fragebogen 


Liebe Kolleginnen und Kollegen! 


Im Rahmen der Diskussion um die Ursachen von langen Studienzeiten unserer 
Absolventen und hohen Studienabbruchraten hat die Universitätsleitung der 
Wirtschaftsuniversität Wien ein Projekt in Auftrag gegeben, in dessen Rahmen 
Studienverläufe an der WU analysiert werden. Die empirische Analyse wird im 
Rahmen einer Dissertation durchgeführt, die vom Institut für Statistik betreut 
wird. 


Der Studienverlauf jedes und jeder einzelnen Studierenden wird sehr von au- 
Beruniversitéren Faktoren - wie etwa Erwerbstätigkeit neben dem Studium - 
beeinflusst. Daher sind entsprechende (Längsschnitt-)Daten für die Analyse 
von Studienverläufen immens wichtig. Wir treten an Sie als Angehörige(r) der 
Immatrikulationsjahrgänge 1990 und 1993 heran und ersuchen Sie um Ihre Mit- 
arbeit, indem Sie den beiliegenden Fragebogen ausfüllen und zurückschicken. 


Wir benötigen für unsere Analyse Ihre persönlichen Daten und wollen diese 
auch mit Ihren Studiendaten zusammenführen, die uns die Universitätsverwal- 
tung zur Verfügung gestellt hat. Uns ist klar, dass Ihre Mitarbeit ein großes 
Vertrauen in unser Verantwortungsbewusstsein beim Behandeln Ihrer persönli- 
chen Daten erfordert. Wir ersuchen Sie, uns dieses Vertrauen entgegenzubrin- 
gen und damit eine Arbeit zu ermöglichen, von der wir hoffen, dass sie zum 
besseren Funktionieren der WU beitragen wird. 


Die Ergebnisse der Analysen beziehen sich nicht auf Einzelpersonen, sondern 
stets auf aggregierte Datensätze. Daher ist aus den veröffentlichten Ergebnissen 
die Identifikation von Personen unmöglich. 


Gerne schicken wir Ihnen nach Abschluss der Untersuchung eine Zusammen- 
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fassung der Ergebnisse. Bitte, nehmen Sie sich 10 Minuten Zeit und senden 
Sie den ausgefüllten Fragebogen möglichst bis 17.November an unis zurück. 
Für Ihre Mitarbeit danken wir Ihnen und grüßen sehr freundlich 


Univ. Prof. Dr. Peter Hackl Dipl.-Ing. Günther Sedlacek 
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Fragebogen 


Wir versichern Ihnen, dass sensible Daten, die hier abgefragt werden, ano- 
nym behandelt und entsprechend dem Datenschutzgesetz nicht weitergege- 
ben werden. 


1. Matrikelnummer: | | | LL į] | 


2. Geschlecht: O Weiblich U Männlich 
3. Noten im Maturazeugnis: Mathematik: _ 
Englisch: 


4. Welche höchste abgeschlossene Schulbildung hat/hatte Ihr Vater/Ihre Mutter? 


Vater Mutter 
Pflichtschulabschluss D D 
Lehre O 0 
Matura O Oj 
Hochschulabschluss DO DO 
Trifft nicht zu O m 
5. a) Haben Sie Kinder? O Ja O Nein 
b) (Wenn ja:) In welchem Zeitraum lebten Sie mit Ihren Kindern in Ihrem 
eignen Haushalt? 
O gar nicht von | l | | | | bis | | | | | 


Monat Jahr Monat Jahr 


6. Hatten Sie zu Beginn des WU-Studiums die Absicht, es auch abzuschlieBen? 


0 Ja O Nein O War nicht sicher 


7. a) Ist Ihr WU-Studium 


O abgeschlossen CO abgebrochen U im Gange ? 
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Wenn abgebrochen, beantworten Sie bitte b) und c) 


b) Zeitpunkt des Studienabbruchs | j | | | 
Monat Jahr 


c) Welcher Hauptaktivitat sind Sie im Jahr nach Ihrem WU-Studienabbruch 
nachgegangen? Geben Sie auch bitte an, ob diese Tatigkeit mit Bezug zu 
ihrem vorangegangenen WU-Studium war oder nicht. 


mit Bezug ohne Bezug 


O  Universitatsstudium außerhalb der WU: O O 
O alternative Ausbildung (FH, College, etc); U E 
O Erwerbstätigkeit 0 o 
O O o 


Wenn noch im Gange: 


d) Haben Sie noch vor, Ihr WU-Studium abzuschließen? 
O Ja O Nein O Weiß nicht 


8. Besuchen oder besuchten Sie, abgesehen von der WU, während Ihrer WU- 
Studienzeit (mindestens zwei Semester lang) weitere Bildungsangebote? 


O Ja O Nein 


Wenn ja, füllen Sie bitte zum zeitaufwendigsten Bildungsangebot, die folgenden 
Felder aus: 


Beginn - Ende Bildungsangebot 


Beginn Ladla] 


Monat Jahr 


mit Bezug ohne Bezug 
zum WU- zum WU- 
Studium Studium 


falis abgeschlossen: 


Abschlussdatum Li] | | O Zweit-Studium E O 
Jahr O FH 

O College 
O 


Monat 


falls abgebrochen: 


Abbmehdawa L] Ud 
Jahr 


OOO 
OO 0 


Monat 


Absolvierter Anteil bisher: % 
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9. a) Haben Sie - als Bestandteil Ihres WU-Studiums — Zeit im Ausland ver- 
bracht, um zu arbeiten oder zu studieren? 


O Ja O Nein 
b) Wenn ja, geben Sie bitte 


vonu | Li | bis | | za 


Monat Jahr ‘Monat Jahr 
von Li | Li | bis Li | Li | 
Monat Jahr Monat Jahr 


10. In welchem durchschnittlichen Ausmaß waren Sie im Jahr vor Beginn Ihres 
WU-Studiums erwerbstätig? 


U gar nicht 

O weniger als 20 Wochenstunden 
O weniger als 30 Wochenstunden 
U] mehr als 30 Wochenstunden 


11.a) In welchen Jahren Ihres WU-Studiums sind Sie während des Studienjah- 
res einer Erwerbstätigkeit nachgegangen (exklusie Erwerbstätigkeiten, die 
ausschließlich in der lehrveranstaltungsfreien Zeit durchgeführt worden 
sind)? (Durchschnittliches Wochenstundenausmaß bitte in Zahlen angeben) 


same EN ESESESEIEIEIEIEN 
wonen |7 |7 Jao io o ao is 1. 


sa e e e e e a e e 
GE E 


b) Falls Sie im Laufe Ihres Studiums erwerbstätig waren, was war bzw. ist 
der Hauptgrund für Ihre Erwerbstätigkeit(en)? (bitte nur eine Nennung) 


Beispiel: 


O Existenzsicherung 
O Zusatzeinkommen 


O Verbesserung der Berufschancen 


O 
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12. Im Zuge einer Befragung der ÖH (1998) gab der Großteil der befragten WU- 
Studierenden an, daß sich einige selektive Prüfungen verlangsamend auf die 
Studienzeit auswirken. Beantworten Sie bitte die folgenden Fragen aufgrund 
Ihrer eigenen Erfahrung. 


(1) Welche Lehrveranstaltungen des ersten Abschnittes wirken sich Ihrer 
Meinung nach verlangsamend auf die Studiendauer aus? 


(2) Welche Diplom- bzw. Vorprüfungen des ersten Abschnittes wirken sich 
verlangsamend auf die Studiendauer aus? 


(3) Welche Lehrveranstaltungen des zweiten Abschnittes wirken sich verlang- 
samend auf die Studiendauer aus? 


(4) Welche Diplom- bzw. Vorprüfungen des zweiten Abschnittes wirken sich 
verlangsamend auf die Studiendauer aus? 


13. Welche Maßnahmen würden Sie - Ihren Erfahrungen an der WU entspre- 
chend - der Universitätsleitung vorschlagen, um die durchschnittliche Stu- 
diendauer und die Abbruchquote zu verringern? 


Danke für Ihre Mitarbeit! 
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